AI Trivia

Jin Daily AI Trivia – 有想过 Nvidia 是怎么给自家 GPU 起名字的吗?

Jin Daily AI Trivia – 有想过 Nvidia 是怎么给自家 GPU 起名字的吗?

如果你最近在市场上找 GPU 来训练 AI,大概已经被一堆奇怪的名字洗礼过:4090、L40S、V100、H200 ……看起来像型号,其实背后都有故事。那些名字到底是什么意思?从哪里来的?

今天就来一口气扫一遍 Nvidia GPU 架构和命名小历史。


Nvidia 最早从 Riva TNT 2D/3D 加速卡开始,当年的架构后来被补了个名字叫 Fahrenheit(华氏)。从这里开始,他们开启了一整个“温度单位科学家”系列:Celsius(摄氏,对应 GeForce 256 / GeForce 2)、Kelvin(开尔文,对应 GeForce 3 / 4)、Rankine(兰金,对应 GeForce FX)。之后主题转成了 Curie(居里,对应 GeForce 6 / 7),还停留在比较传统的 GPU 时代,距离现在这种 CUDA 计算风格还有一点距离。


真正的转折点,是 2000 年代后期的 Tesla。Tesla 把旧的固定管线扔掉,换成统一着色器,也就是我们今天习惯叫的 CUDA core。Tesla 架构覆盖了很大一段 GeForce 产品线(GeForce 8 / 9 / 100 / 200 / 300 系列),更关键的是,第一次正式把“算力 GPU”商品化,做成 Nvidia Tesla 这一条 GPGPU 产品线。GPU 不再只是“显卡”,而是开始被当成正经的通用计算加速器。


接着就是 Fermi(GeForce 400 / 500)、Kepler(GeForce 600 / 700)、Maxwell(GeForce 800 / 900 GTX)。这一阶段 Nvidia 也做了对应的数据中心 GPGPU:Fermi 的 M2090 6GB、Kepler 的 K40 12GB、Maxwell 的 M40 24GB。它们都还是用 GDDR5,以今天 AI 的标准来看,不管是带宽还是显存容量,都明显不够现代大模型训练用,只能说历史意义大于实际生产力。

顺便一提:AlexNet 当年就是用两张 GTX 580 跑出来的,而 GTX 580 正是 Fermi 这一代。深度学习拿下 ImageNet 的成名战,本质上就是“游戏显卡 + 信仰加成”。


然后我们进入高带宽显存时代:Pascal(GTX 1000 系列)。Pascal 在数据中心上带来了用 HBM2 的 P100 16GB,大概是 2016 年左右问世,到现在快十年了,P100 在一些 AI 任务里还是能用的。虽然比不上 H100 这种怪物,但对小模型和传统 DL 任务来说,还是一块能干活的卡。


随着 AI 热度持续升温,Nvidia 开始更明显地把消费级和数据中心分家。下一代的 Volta 完全是数据中心专用,旗舰就是 V100 32GB。Volta 是 Nvidia 第一代带 Tensor Core 的架构,这个硬件模块就是专门为深度学习算子优化的。Nvidia 把一堆 V100 打包,做成第一代 DGX-1,把“AI 超算整机”当成一个产品来卖。OpenAI 和 Elon Musk 当年拿到的早期 DGX-1,就是从 Jensen 手上接过去的;第一版 DGX-1 是 Pascal 架构,后来升级到 Volta,深度学习算力从大概 170 TFLOPS 飙到接近 960 TFLOPS。


有了 Tensor Core 之后,Nvidia 也终于能把实时光线追踪做得可用,这就带来了 Turing(RTX 2000 / GTX 1600 系列)。Turing 新增了 RT Core 专门做光追,同时把 Tensor Core 下放进消费级 GPU,一部分用 GDDR6 的 Turing 芯片也被做成低端数据中心卡,比如 T4 16GB。


再往后,Nvidia 意识到消费级和数据中心用完全不同架构,软件生态会变得很难维护,所以又重新统一。2020 年,Ampere(RTX 3000 系列)登场,数据中心这边则是 A100 80GB,很快就变成“勉强买得起,又勉强够用”的 LLM 训练标配。直到今天,A100 依然在各大云厂商和机房里大量服役,因为它在价格、性能和显存之间的平衡点非常舒服。


2022 年,ChatGPT 上线,整个世界被震了一下,AI 军备竞赛正式开打。Nvidia 则一口气押注在同一个人身上:美国海军少将 Grace Hopper(葛丽丝·霍珀)。他们推出了两条同名产品线:Grace CPU 和 Hopper GPU。Grace CPU 的定位,就是给 GPU 集群提供足够大的内存容量和 NVLink-C2C 这种高带宽互联,补上传统 x86 服务器在这方面的短板。

Hopper 就是现在整个 AI 世界还在疯狂使用的那代:H100 80/96GB,以及 HBM3e 的 H200 141GB。因为后疫情时代的供应紧张再加上数据中心需求爆炸,Hopper 这一代几乎没出现过真正意义上的消费级 GeForce 系列。


Nvidia 尝到 AI 时代的甜头后,接下来就是有点微妙的 Ada Lovelace(RTX 4000 系列)。这一次,Nvidia 想要全都要:消费者、工作站、数据中心一个都不能少。于是我们看到同一颗核心被拆成三个价格区间:RTX 4090、RTX 6000 Ada、L40 / L40S 48GB 数据中心卡,本质上都是同一代 Ada 架构,只是熔丝、显存配置和接口策略不同。Nvidia 会在便宜型号上关掉一部分核心和显存通道,刻意制造市场分层。Ada 本身没有 HBM 的旗舰数据中心卡,主打还是 GDDR6/X。


随着 AI 需求继续爆炸,Nvidia 发布了 Blackwell(消费级这边是 RTX 5000 系列),同时终于给数据中心端上了一块 HBM3e 怪兽:B200 192GB。更狠的是,他们直接把整机都打包好了,推出 GB200 NVL72——一整机柜内塞满 72 张 Blackwell 级别 GPU,加上 Grace CPU,总共大概 13.5TB GPU 显存,真正把“AI 集群”做成一个产品型号来卖。

开了 AI 印钞机之后,Nvidia 当然不会停。它们又复活了“6000”这个名字,把 Blackwell 时代的工作站卡叫 RTX Pro 6000,说白了就是略微魔改版的“5090 级”核心,换个名字继续卖,一代又一代同一招数反复用。


在最近几次 Keynote 里,Nvidia 又亮出了下一波产品:Vera Rubin。这次直接把架构名搬上产品包装,叫 Vera CPU 和 Rubin GPU,而不是只当内部代号。这一代目前没有看到传统 GeForce 消费级产品的影子:Rubin 完全是冲着 AI GPGPU 去的,重点优化低精度 AI 算力,比如 NVFP4 这类新格式;Vera 则是新一代 Arm 服务器 CPU,给更大的 GPU 集群提供更高的内存带宽和容量。


今天就先聊到这里——下次你在云平台的 GPU 下拉框看到那些乱七八糟的字母和数字,大概就知道背后是哪一位科学家在帮你跑训练了。


顺带一提,Nvidia 的嵌入式家族也一样有故事:

  • Tegra X1 基于 Maxwell,用在任天堂 Switch 和 Jetson Nano。
  • Tegra X2 是 Pascal 架构,对应 Jetson TX2。
  • Xavier 基于 Volta,对应 Jetson Xavier NX,也是 Nvidia 第一代认真做自动驾驶 SoC 的系列。
  • Orin 基于 Ampere,对应 Jetson Orin Nano 等产品。
  • Thor 则搭 Blackwell,用在 Jetson AGX Thor 这一代上。

Trivia Image