Jin Daily AI Trivia – 有想过 Nvidia 是怎么给自家 GPU 起名字的吗？

如果你最近在市场上找 GPU 来训练 AI，大概已经被一堆奇怪的名字洗礼过：4090、L40S、V100、H200 ……看起来像型号，其实背后都有故事。那些名字到底是什么意思？从哪里来的？

今天就来一口气扫一遍 Nvidia GPU 架构和命名小历史。

Nvidia 最早从 Riva TNT 2D/3D 加速卡开始，当年的架构后来被补了个名字叫 Fahrenheit（华氏）。从这里开始，他们开启了一整个“温度单位科学家”系列：Celsius（摄氏，对应 GeForce 256 / GeForce 2）、Kelvin（开尔文，对应 GeForce 3 / 4）、Rankine（兰金，对应 GeForce FX）。之后主题转成了 Curie（居里，对应 GeForce 6 / 7），还停留在比较传统的 GPU 时代，距离现在这种 CUDA 计算风格还有一点距离。

真正的转折点，是 2000 年代后期的 Tesla。Tesla 把旧的固定管线扔掉，换成统一着色器，也就是我们今天习惯叫的 CUDA core。Tesla 架构覆盖了很大一段 GeForce 产品线（GeForce 8 / 9 / 100 / 200 / 300 系列），更关键的是，第一次正式把“算力 GPU”商品化，做成 Nvidia Tesla 这一条 GPGPU 产品线。GPU 不再只是“显卡”，而是开始被当成正经的通用计算加速器。

接着就是 Fermi（GeForce 400 / 500）、Kepler（GeForce 600 / 700）、Maxwell（GeForce 800 / 900 GTX）。这一阶段 Nvidia 也做了对应的数据中心 GPGPU：Fermi 的 M2090 6GB、Kepler 的 K40 12GB、Maxwell 的 M40 24GB。它们都还是用 GDDR5，以今天 AI 的标准来看，不管是带宽还是显存容量，都明显不够现代大模型训练用，只能说历史意义大于实际生产力。

顺便一提：AlexNet 当年就是用两张 GTX 580 跑出来的，而 GTX 580 正是 Fermi 这一代。深度学习拿下 ImageNet 的成名战，本质上就是“游戏显卡 + 信仰加成”。

然后我们进入高带宽显存时代：Pascal（GTX 1000 系列）。Pascal 在数据中心上带来了用 HBM2 的 P100 16GB，大概是 2016 年左右问世，到现在快十年了，P100 在一些 AI 任务里还是能用的。虽然比不上 H100 这种怪物，但对小模型和传统 DL 任务来说，还是一块能干活的卡。

随着 AI 热度持续升温，Nvidia 开始更明显地把消费级和数据中心分家。下一代的 Volta 完全是数据中心专用，旗舰就是 V100 32GB。Volta 是 Nvidia 第一代带 Tensor Core 的架构，这个硬件模块就是专门为深度学习算子优化的。Nvidia 把一堆 V100 打包，做成第一代 DGX-1，把“AI 超算整机”当成一个产品来卖。OpenAI 和 Elon Musk 当年拿到的早期 DGX-1，就是从 Jensen 手上接过去的；第一版 DGX-1 是 Pascal 架构，后来升级到 Volta，深度学习算力从大概 170 TFLOPS 飙到接近 960 TFLOPS。

有了 Tensor Core 之后，Nvidia 也终于能把实时光线追踪做得可用，这就带来了 Turing（RTX 2000 / GTX 1600 系列）。Turing 新增了 RT Core 专门做光追，同时把 Tensor Core 下放进消费级 GPU，一部分用 GDDR6 的 Turing 芯片也被做成低端数据中心卡，比如 T4 16GB。

再往后，Nvidia 意识到消费级和数据中心用完全不同架构，软件生态会变得很难维护，所以又重新统一。2020 年，Ampere（RTX 3000 系列）登场，数据中心这边则是 A100 80GB，很快就变成“勉强买得起，又勉强够用”的 LLM 训练标配。直到今天，A100 依然在各大云厂商和机房里大量服役，因为它在价格、性能和显存之间的平衡点非常舒服。

2022 年，ChatGPT 上线，整个世界被震了一下，AI 军备竞赛正式开打。Nvidia 则一口气押注在同一个人身上：美国海军少将 Grace Hopper（葛丽丝·霍珀）。他们推出了两条同名产品线：Grace CPU 和 Hopper GPU。Grace CPU 的定位，就是给 GPU 集群提供足够大的内存容量和 NVLink-C2C 这种高带宽互联，补上传统 x86 服务器在这方面的短板。

Hopper 就是现在整个 AI 世界还在疯狂使用的那代：H100 80/96GB，以及 HBM3e 的 H200 141GB。因为后疫情时代的供应紧张再加上数据中心需求爆炸，Hopper 这一代几乎没出现过真正意义上的消费级 GeForce 系列。

Nvidia 尝到 AI 时代的甜头后，接下来就是有点微妙的 Ada Lovelace（RTX 4000 系列）。这一次，Nvidia 想要全都要：消费者、工作站、数据中心一个都不能少。于是我们看到同一颗核心被拆成三个价格区间：RTX 4090、RTX 6000 Ada、L40 / L40S 48GB 数据中心卡，本质上都是同一代 Ada 架构，只是熔丝、显存配置和接口策略不同。Nvidia 会在便宜型号上关掉一部分核心和显存通道，刻意制造市场分层。Ada 本身没有 HBM 的旗舰数据中心卡，主打还是 GDDR6/X。

随着 AI 需求继续爆炸，Nvidia 发布了 Blackwell（消费级这边是 RTX 5000 系列），同时终于给数据中心端上了一块 HBM3e 怪兽：B200 192GB。更狠的是，他们直接把整机都打包好了，推出 GB200 NVL72——一整机柜内塞满 72 张 Blackwell 级别 GPU，加上 Grace CPU，总共大概 13.5TB GPU 显存，真正把“AI 集群”做成一个产品型号来卖。

开了 AI 印钞机之后，Nvidia 当然不会停。它们又复活了“6000”这个名字，把 Blackwell 时代的工作站卡叫 RTX Pro 6000，说白了就是略微魔改版的“5090 级”核心，换个名字继续卖，一代又一代同一招数反复用。

在最近几次 Keynote 里，Nvidia 又亮出了下一波产品：Vera Rubin。这次直接把架构名搬上产品包装，叫 Vera CPU 和 Rubin GPU，而不是只当内部代号。这一代目前没有看到传统 GeForce 消费级产品的影子：Rubin 完全是冲着 AI GPGPU 去的，重点优化低精度 AI 算力，比如 NVFP4 这类新格式；Vera 则是新一代 Arm 服务器 CPU，给更大的 GPU 集群提供更高的内存带宽和容量。

今天就先聊到这里——下次你在云平台的 GPU 下拉框看到那些乱七八糟的字母和数字，大概就知道背后是哪一位科学家在帮你跑训练了。

顺带一提，Nvidia 的嵌入式家族也一样有故事：

Tegra X1 基于 Maxwell，用在任天堂 Switch 和 Jetson Nano。
Tegra X2 是 Pascal 架构，对应 Jetson TX2。
Xavier 基于 Volta，对应 Jetson Xavier NX，也是 Nvidia 第一代认真做自动驾驶 SoC 的系列。
Orin 基于 Ampere，对应 Jetson Orin Nano 等产品。
Thor 则搭 Blackwell，用在 Jetson AGX Thor 这一代上。

Trivia Image

Jin Daily AI Trivia – 有想过 Nvidia 是怎么给自家 GPU 起名字的吗？

Topics