NVIDIA GPU产品线完整技术对比

rusty james

05 Oct 2025 • 7 min read

基本参数

项目	A100	H100	H200	B200/GB200	GB300	Rubin (R100)
架构代号	Ampere	Hopper	Hopper+	Blackwell	Blackwell Ultra	Rubin
发布时间	2020年	2022年	2023年	2024-2025年	2025年下半年	2026年下半年
制程工艺	7nm (TSMC)	4nm (TSMC)	4nm (TSMC)	4nm定制	3nm/4nm	预计3nm
状态	成熟现役	成熟现役	现役	量产/出货中	即将发布	开发中
目标市场	AI训练/推理、HPC	LLM训练、AI推理	长上下文AI	AI工厂、超大模型	极限性能AI	百万token上下文

核心架构

组件	A100	H100	H200	B200	GB300	Rubin
CUDA核心数	6,912	18,432	18,432	~20,000+	~20,000+	未公布
Tensor Core代数	第3代	第4代	第4代	第5代	第5代	第6代(预计)
流多处理器(SM)	108个	80个(优化后)	80个	预计100+	预计100+	未公布
RT Core	无	无	无	无	无	无
芯片形态	单芯片	单芯片	单芯片	双芯片封装	双芯片封装	双芯片封装
GPU die数量	1	1	1	2	2	2

内存系统

参数	A100	H100	H200	B200	GB300	Rubin
显存容量	40GB/80GB	80GB	141GB	192GB	288GB	288GB
显存类型	HBM2e	HBM3	HBM3e	HBM3e	HBM3e	HBM4
显存带宽	2.0 TB/s	3.35 TB/s	4.8 TB/s	~8 TB/s	~8 TB/s	13 TB/s
显存堆栈数	5-6	5	5	8	8	8
L2缓存	40MB	50MB	50MB	预计80MB+	预计80MB+	未公布
内存带宽提升	基准	+67%	+140%	+300%	+300%	+550%

计算性能

精度类型	A100	H100	H200	B200	GB300	Rubin
FP64 (双精度)	19.5 TFLOPS	60 TFLOPS	60 TFLOPS	~80 TFLOPS	~80 TFLOPS	未公布
FP32 (单精度)	19.5 TFLOPS	60 TFLOPS	60 TFLOPS	~80 TFLOPS	~80 TFLOPS	未公布
TF32	156 TFLOPS	378 TFLOPS	378 TFLOPS	~600 TFLOPS	~600 TFLOPS	未公布
FP16	312 TFLOPS	756 TFLOPS	756 TFLOPS	1,800 TFLOPS	1,800 TFLOPS	未公布
FP8	不支持	1,513 TFLOPS	1,513 TFLOPS	4,500 TFLOPS	4,500 TFLOPS	未公布
FP4 (稀疏)	不支持	不支持	不支持	9,000 TFLOPS	9,000 TFLOPS	未公布
INT8	624 TOPS	1,513 TOPS	1,513 TOPS	~4,500 TOPS	~4,500 TOPS	未公布

互联技术

技术	A100	H100	H200	B200/GB200	GB300	Rubin
NVLink版本	3.0	4.0	4.0	5.0	6.0	7.0(预计)
NVLink带宽	600 GB/s	900 GB/s	900 GB/s	1,800 GB/s	未公布	未公布
每链路带宽	50 GB/s	50 GB/s	50 GB/s	100 GB/s	更高	更高
PCIe版本	4.0	5.0	5.0	5.0	5.0	6.0(预计)
PCIe带宽	64 GB/s	128 GB/s	128 GB/s	128 GB/s	128 GB/s	256 GB/s(预计)
最大GPU互联	16	256+	256+	576	576+	更多

CPU配对(Grace Blackwell系列)

参数	A100	H100	H200	GB200	GB300	Rubin系统
配套CPU	无集成	无集成	无集成	Grace (72核Arm)	Grace (72核Arm)	Vera CV100
CPU架构	-	-	-	Neoverse V2	Neoverse V2	下一代Arm
CPU-GPU互联	-	-	-	NVLink-C2C	NVLink-C2C	NVLink-C2C
CPU-GPU带宽	-	-	-	900 GB/s	900 GB/s	更高
系统内存	-	-	-	480GB LPDDR5X	480GB LPDDR5X	~1TB LPDDR6
统一内存空间	否	否	否	672GB	768GB	1+ TB

功耗与散热

参数	A100	H100	H200	B200	GB200	GB300
TDP (最大功耗)	400W	700W	700W	1,000W	~1,200W	未公布
待机功耗	~50W	~80W	~80W	未公布	未公布	未公布
冷却方式	液冷/风冷	液冷为主	液冷	液冷必需	液冷必需	液冷必需
热设计温度	85°C	85°C	85°C	未公布	未公布	未公布
性能/瓦提升	基准	+80%	+80%	+150%	+150%	未公布

特殊功能

功能	A100	H100	H200	B200/GB200	GB300	Rubin CPX
MIG (多实例GPU)	7实例	7实例(改进)	7实例	未公布	未公布	未公布
Transformer Engine	无	有	有(增强)	有(第2代)	有(第2代)	有(第3代)
FP8支持	无	有	有	有(改进)	有(改进)	有
稀疏计算	2:1稀疏	2:1稀疏	2:1稀疏	4:1稀疏	4:1稀疏	更高
动态编程(DPX)	无	有	有	有(增强)	有(增强)	有
机密计算	基础	增强	增强	全面支持	全面支持	全面支持
专用上下文处理	否	否	否	否	否	是(百万token)

系统级配置

配置	A100	H100	H200	GB200 NVL72	GB300 NVL72	Rubin机架
单机架GPU数	最多16	最多8	最多8	72 (144芯片)	72 (144芯片)	88 CPU + 144 GPU
机架总算力(FP8)	不支持	~12 PFLOPS	~12 PFLOPS	720 PFLOPS	1,100 PFLOPS	3,600 PFLOPS
机架总显存	640GB-1.28TB	640GB	1.1TB	13.8TB	20.7TB	未公布
系统总带宽	9.6 TB/s	~27 TB/s	~38 TB/s	576 TB/s	预计900 TB/s	未公布
机架功耗	~6.4kW	~5.6kW	~5.6kW	~120kW	~140kW	未公布
冷却需求	标准	增强	增强	直接液冷	直接液冷	直接液冷

软件与生态

项目	A100	H100	H200	B200系列	GB300	Rubin
CUDA版本	11.0+	12.0+	12.0+	12.4+	12.6+	未来版本
cuDNN支持	8.0+	8.9+	9.0+	9.2+	最新	未来
TensorRT支持	8.0+	8.6+	9.0+	10.0+	最新	未来
PyTorch优化	良好	优秀	优秀	深度优化	深度优化	未来
TensorFlow优化	良好	优秀	优秀	深度优化	深度优化	未来
NeMo框架	支持	优化	优化	深度集成	深度集成	未来
NIM微服务	支持	支持	支持	原生支持	原生支持	原生支持

适用场景

场景	A100	H100	H200	B200/GB200	GB300	Rubin CPX
LLM训练 (<100B参数)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐
LLM训练 (>1T参数)	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
标准推理 (<32K上下文)	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐
长上下文推理 (>100K)	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
百万token推理	⭐	⭐	⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
科学计算(HPC)	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐
传统ML工作负载	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐
视频生成	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
代码生成(长上下文)	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐

成本与经济性

项目	A100	H100	H200	B200/GB200	GB300	Rubin
单卡价格(估算)	$10,000-15,000	$25,000-35,000	$30,000-40,000	$40,000-70,000	$60,000-90,000	未公布
云计算时价(每GPU/小时)	$1.50-3.00	$3.00-5.00	$4.00-6.00	$6.00-10.00	未上市	未上市
性能/价格比	良好	优秀	很好	优秀	预计优秀	未知
每TFLOPS成本(FP16)	~$40	~$35	~$40	~$25	~$35	未知
转售价值(2025)	$9,000-12,000	$28,000-32,000	$35,000+	太新无数据	-	-
使用寿命	3-5年	5-7年	5-7年	7+年(预计)	7+年(预计)	未知

可用性与部署

项目	A100	H100	H200	B200/GB200	GB300	Rubin
供货状态	充足	充足(2025)	良好	有限供应	预订中	开发中
交付周期	立即	数周	数周	数月	2025下半年	2026下半年
云服务商	AWS, GCP, Azure	AWS, GCP, Azure	GCP, Azure	逐步上线	未来	未来
OEM合作伙伴	Dell, HPE等	Dell, HPE, Supermicro	同左	主要厂商	主要厂商	未知
DGX系统	DGX A100	DGX H100	DGX H200	DGX GB200	DGX Station	未来DGX

核心技术差异

维度	A100	H100	H200	B200/GB200	GB300	Rubin CPX
设计理念	通用AI加速	Transformer优化	长上下文扩展	AI工厂核心	极限性能	超长上下文专用
主要创新	MIG技术	FP8+Transformer Engine	HBM3e大内存	双芯片+NVLink5	Blackwell Ultra	百万token处理
代际提升	基准	3-6x (AI)	1.4x内存	4-5x (AI)	1.5x over GB200	3.3x over GB300
技术成熟度	非常成熟	成熟	成熟	早期生产	开发完成	早期开发

消费级产品对比 (GeForce RTX系列)

参数	RTX 4090	RTX 5090	RTX 5080	RTX 5070 Ti	RTX 5070
架构	Ada Lovelace	Blackwell	Blackwell	Blackwell	Blackwell
发布时间	2022年	2025年1月	2025年1月	2025年	2025年
CUDA核心	16,384	~21,000	~10,000	~8,000	~6,000
显存	24GB GDDR6X	32GB GDDR7	16GB GDDR7	12GB GDDR7	12GB GDDR7
TDP	450W	575W	360W	300W	250W
DLSS版本	DLSS 3	DLSS 4 (3帧生成)	DLSS 4	DLSS 4	DLSS 4
适用场景	游戏/创作	8K游戏/AI	4K游戏	2K-4K游戏	2K游戏
价格(美元)	$1,599	$1,999	$999	$749	$549

专业工作站GPU

参数	RTX 6000 Ada	RTX Pro 4000 SFF	RTX Pro 2000
架构	Ada Lovelace	Blackwell	Blackwell
显存	48GB GDDR6	24GB	16GB
外形尺寸	全高双槽	小型	单槽
目标用户	高端工作站	紧凑工作站	入门专业
发布时间	2023年	2025年8月	2025年8月

产品线总结

当前主力 (2025)

数据中心: H100 (主流), H200 (高端), GB200 (尖端)
消费级: RTX 5090/5080/5070系列
专业级: RTX Pro 4000/2000, RTX 6000 Ada

即将推出 (2025下半年-2026)

数据中心: GB300 (2025下半年), Rubin系列 (2026下半年)
消费级: 可能的RTX 5090 Ti/5060系列

技术路线图

2020 ─ Ampere (A100)
2022 ─ Hopper (H100)
2023 ─ Hopper+ (H200)
2024 ─ Blackwell (B200)
2025 ─ Blackwell Ultra (GB300)
2026 ─ Rubin (R100)
2027 ─ Rubin Ultra
2028 ─ 下一代架构

注: 部分未发布产品的规格为基于公开信息的估算值，实际产品可能有差异