GPU技术术语解释
核心架构相关
CUDA核心数
- 是什么: GPU里的"计算工人",数量越多干活越快
- 解决什么: 需要同时处理成千上万个小任务(比如训练AI模型时的矩阵运算)
Tensor Core(张量核心)
- 是什么: 专门为AI计算优化的"超级工人",一个能顶好几个普通CUDA核心
- 解决什么: AI训练需要大量矩阵乘法,普通核心太慢了,这个专门加速这类运算
流多处理器(SM)
- 是什么: 把CUDA核心分组管理的"车间主任"
- 解决什么: 更好地组织和调度成千上万个核心协同工作
双芯片封装
- 是什么: 把两个GPU芯片装在一个壳里,像"双胞胎"一起工作
- 解决什么: 单个芯片做不了那么大,两个合体性能翻倍
内存系统
HBM(高带宽内存)
- 是什么: 像是给GPU配的"超级高速公路",数据跑得飞快
- 解决什么: 普通内存太慢,AI训练时数据传输会变成瓶颈
显存容量(从80GB到288GB)
- 是什么: GPU的"工作台大小",越大能同时处理的数据越多
- 解决什么: 训练大模型(比如GPT)需要把整个模型和数据都装进来,不够就训练不了
显存带宽(2TB/s → 13TB/s)
- 是什么: 数据搬运速度,每秒能搬多少数据
- 解决什么: 计算速度再快,数据喂不过来也白搭
L2缓存
- 是什么: GPU的"临时工作台",存放最常用的数据
- 解决什么: 不用每次都去主内存取数据,省时间
计算精度
FP64/FP32/FP16/FP8/FP4
- 是什么: 数字的精确程度。FP64最精确但最慢,FP4最粗糙但最快
- 解决什么: 科学计算需要高精度(FP64),AI训练可以用低精度(FP8)换速度,就像量体重用精确到克还是斤的区别
TF32
- 是什么: 专为AI设计的"折中精度",外表像FP32,内心是FP19
- 解决什么: 既保证AI训练质量,又比FP32快很多
稀疏计算(2:1 → 4:1)
- 是什么: 发现很多计算结果是0,直接跳过不算
- 解决什么: AI模型里有大量"废话"参数,跳过它们能提速一倍甚至更多
互联技术
NVLink
- 是什么: GPU之间的"专用高速公路",比普通PCIe快得多
- 解决什么: 多个GPU协同训练大模型时需要疯狂交换数据,普通连接太慢
NVLink带宽(600GB/s → 1800GB/s)
- 是什么: 这条"高速公路"有多宽,能跑多少车
- 解决什么: 带宽越大,多GPU训练效率越高,不会互相等待
PCIe
- 是什么: GPU和CPU/其他设备的"普通公路"
- 解决什么: 需要和外界(CPU、硬盘、网络)交换数据
最大GPU互联数
- 是什么: 最多能把多少张卡连成一个"超级大脑"
- 解决什么: 训练超大模型(万亿参数)需要几百张卡一起干活
CPU配对(Grace系列)
Grace CPU
- 是什么: 英伟达自己做的CPU,和GPU是"亲兄弟"
- 解决什么: 传统CPU和GPU沟通有"翻译"损耗,自家CPU能无缝配合
NVLink-C2C(CPU to Chip)
- 是什么: CPU和GPU之间的"直达电梯"
- 解决什么: 传统方式CPU和GPU像两栋楼,现在直接打通了
统一内存空间
- 是什么: CPU和GPU共享一个"大仓库",不用搬来搬去
- 解决什么: 数据在CPU和GPU之间复制很浪费时间,现在直接共享
功耗与散热
TDP(400W → 1200W)
- 是什么: 这个"电老虎"吃多少电
- 解决什么: 性能越强吃电越多,需要配套供电
液冷
- 是什么: 用水冷却,像汽车水箱
- 解决什么: 风扇吹不动了,太热会烧坏,必须用水冷
特殊功能
MIG(多实例GPU)
- 是什么: 把一张卡"切"成7个小卡独立使用
- 解决什么: 不同用户/任务共享一张卡,互不干扰,提高利用率
Transformer Engine
- 是什么: 专门为ChatGPT这类模型优化的"涡轮增压器"
- 解决什么: Transformer模型(现在AI的主流)有特殊计算模式,专门加速
FP8支持
- 是什么: 支持8位低精度计算
- 解决什么: 推理(用模型)时不需要高精度,用FP8能快3-4倍
动态编程(DPX)
- 是什么: 加速图算法、动态规划这类特殊计算
- 解决什么: 路径规划、基因组分析等需要特殊算法加速
机密计算
- 是什么: 加密保护GPU里的数据
- 解决什么: 处理敏感数据(医疗、金融)时防止泄露
专用上下文处理(Rubin)
- 是什么: 专门处理超长对话/文档的硬件
- 解决什么: 处理百万字的文档时,普通GPU会卡死
系统级配置
NVL72(72卡系统)
- 是什么: 一个机柜塞72张GPU卡
- 解决什么: 训练超大模型需要几百张卡,集成在一起方便管理
机架总算力(12 PFLOPS → 3600 PFLOPS)
- 是什么: 整个机柜的计算能力,P=千万亿次
- 解决什么: 衡量一个"AI工厂"有多强
直接液冷
- 是什么: 冷却液直接接触芯片,像CPU水冷
- 解决什么: 120kW功耗(相当于60台空调),风冷根本搞不定
消费级特性
DLSS(深度学习超采样)
- 是什么: 用AI把低分辨率画面"脑补"成高分辨率
- 解决什么: 4K/8K游戏太吃性能,AI帮你"猜"出细节,帧数翻倍
DLSS 4的3帧生成
- 是什么: GPU真算1帧,AI"编"出3帧
- 解决什么: 游戏性能再翻倍,60帧变240帧
总结一句话
这些技术都在解决一个核心问题:让AI训练/推理更快、处理更大的模型、消耗更少的能源。就像造车,有人提升发动机(计算核心),有人加宽道路(带宽),有人扩大油箱(显存),有人优化空调(散热),最终目标都是跑得更快更远!