GPU技术术语解释

核心架构相关

CUDA核心数

  • 是什么: GPU里的"计算工人",数量越多干活越快
  • 解决什么: 需要同时处理成千上万个小任务(比如训练AI模型时的矩阵运算)

Tensor Core(张量核心)

  • 是什么: 专门为AI计算优化的"超级工人",一个能顶好几个普通CUDA核心
  • 解决什么: AI训练需要大量矩阵乘法,普通核心太慢了,这个专门加速这类运算

流多处理器(SM)

  • 是什么: 把CUDA核心分组管理的"车间主任"
  • 解决什么: 更好地组织和调度成千上万个核心协同工作

双芯片封装

  • 是什么: 把两个GPU芯片装在一个壳里,像"双胞胎"一起工作
  • 解决什么: 单个芯片做不了那么大,两个合体性能翻倍

内存系统

HBM(高带宽内存)

  • 是什么: 像是给GPU配的"超级高速公路",数据跑得飞快
  • 解决什么: 普通内存太慢,AI训练时数据传输会变成瓶颈

显存容量(从80GB到288GB)

  • 是什么: GPU的"工作台大小",越大能同时处理的数据越多
  • 解决什么: 训练大模型(比如GPT)需要把整个模型和数据都装进来,不够就训练不了

显存带宽(2TB/s → 13TB/s)

  • 是什么: 数据搬运速度,每秒能搬多少数据
  • 解决什么: 计算速度再快,数据喂不过来也白搭

L2缓存

  • 是什么: GPU的"临时工作台",存放最常用的数据
  • 解决什么: 不用每次都去主内存取数据,省时间

计算精度

FP64/FP32/FP16/FP8/FP4

  • 是什么: 数字的精确程度。FP64最精确但最慢,FP4最粗糙但最快
  • 解决什么: 科学计算需要高精度(FP64),AI训练可以用低精度(FP8)换速度,就像量体重用精确到克还是斤的区别

TF32

  • 是什么: 专为AI设计的"折中精度",外表像FP32,内心是FP19
  • 解决什么: 既保证AI训练质量,又比FP32快很多

稀疏计算(2:1 → 4:1)

  • 是什么: 发现很多计算结果是0,直接跳过不算
  • 解决什么: AI模型里有大量"废话"参数,跳过它们能提速一倍甚至更多

互联技术

NVLink

  • 是什么: GPU之间的"专用高速公路",比普通PCIe快得多
  • 解决什么: 多个GPU协同训练大模型时需要疯狂交换数据,普通连接太慢

NVLink带宽(600GB/s → 1800GB/s)

  • 是什么: 这条"高速公路"有多宽,能跑多少车
  • 解决什么: 带宽越大,多GPU训练效率越高,不会互相等待

PCIe

  • 是什么: GPU和CPU/其他设备的"普通公路"
  • 解决什么: 需要和外界(CPU、硬盘、网络)交换数据

最大GPU互联数

  • 是什么: 最多能把多少张卡连成一个"超级大脑"
  • 解决什么: 训练超大模型(万亿参数)需要几百张卡一起干活

CPU配对(Grace系列)

Grace CPU

  • 是什么: 英伟达自己做的CPU,和GPU是"亲兄弟"
  • 解决什么: 传统CPU和GPU沟通有"翻译"损耗,自家CPU能无缝配合

NVLink-C2C(CPU to Chip)

  • 是什么: CPU和GPU之间的"直达电梯"
  • 解决什么: 传统方式CPU和GPU像两栋楼,现在直接打通了

统一内存空间

  • 是什么: CPU和GPU共享一个"大仓库",不用搬来搬去
  • 解决什么: 数据在CPU和GPU之间复制很浪费时间,现在直接共享

功耗与散热

TDP(400W → 1200W)

  • 是什么: 这个"电老虎"吃多少电
  • 解决什么: 性能越强吃电越多,需要配套供电

液冷

  • 是什么: 用水冷却,像汽车水箱
  • 解决什么: 风扇吹不动了,太热会烧坏,必须用水冷

特殊功能

MIG(多实例GPU)

  • 是什么: 把一张卡"切"成7个小卡独立使用
  • 解决什么: 不同用户/任务共享一张卡,互不干扰,提高利用率

Transformer Engine

  • 是什么: 专门为ChatGPT这类模型优化的"涡轮增压器"
  • 解决什么: Transformer模型(现在AI的主流)有特殊计算模式,专门加速

FP8支持

  • 是什么: 支持8位低精度计算
  • 解决什么: 推理(用模型)时不需要高精度,用FP8能快3-4倍

动态编程(DPX)

  • 是什么: 加速图算法、动态规划这类特殊计算
  • 解决什么: 路径规划、基因组分析等需要特殊算法加速

机密计算

  • 是什么: 加密保护GPU里的数据
  • 解决什么: 处理敏感数据(医疗、金融)时防止泄露

专用上下文处理(Rubin)

  • 是什么: 专门处理超长对话/文档的硬件
  • 解决什么: 处理百万字的文档时,普通GPU会卡死

系统级配置

NVL72(72卡系统)

  • 是什么: 一个机柜塞72张GPU卡
  • 解决什么: 训练超大模型需要几百张卡,集成在一起方便管理

机架总算力(12 PFLOPS → 3600 PFLOPS)

  • 是什么: 整个机柜的计算能力,P=千万亿次
  • 解决什么: 衡量一个"AI工厂"有多强

直接液冷

  • 是什么: 冷却液直接接触芯片,像CPU水冷
  • 解决什么: 120kW功耗(相当于60台空调),风冷根本搞不定

消费级特性

DLSS(深度学习超采样)

  • 是什么: 用AI把低分辨率画面"脑补"成高分辨率
  • 解决什么: 4K/8K游戏太吃性能,AI帮你"猜"出细节,帧数翻倍

DLSS 4的3帧生成

  • 是什么: GPU真算1帧,AI"编"出3帧
  • 解决什么: 游戏性能再翻倍,60帧变240帧

总结一句话

这些技术都在解决一个核心问题:让AI训练/推理更快、处理更大的模型、消耗更少的能源。就像造车,有人提升发动机(计算核心),有人加宽道路(带宽),有人扩大油箱(显存),有人优化空调(散热),最终目标都是跑得更快更远!