主流GPU配置信息整理

自从DeepSeek出圈后,智算算力需求突增,经常会被问到一些关于GPU卡算力数据问题,所以花了点时间整理以下内容,供个人速查,如有错误,欢迎指正~

NVIDIA GPU的命名约定


NVIDIA GPU型号名称中的首字母表示其GPU架构,对应关系如下

首字母 GPU架构 推出时间
V Volta 2017
T Turing 2018
A Ampere 2020
H Hopper 2022
B Blackwell 2024

说明
在2025年英伟达GPU技术大会(GTC)大会上老黄也预告了后面几代GPU的命名,Vera Rubin(预计2026下半年)、Rubin Ultra(预计2027下半年)、Feynman

NVIDIA GPU配置信息整理


型号 V100 PCIe
V100 SXM2
V100S PCIe
T4 A100 PCIe
A100 SXM
H100 SXM
H100 NVL
H200 SXM
H200 NVL
GeForce RTX 4090
发布时间 2017 2018 2020 2022 2023 2022
架构 Volta Turing Ampere Hopper Hopper
Tensor Core数量 640 320
CUDA Core数量 5120 2560 16384
最大功率 250W(PCIe)
300W(SXM2)
250W(V100S)
70W 300W(PCIe)
400W(SXM)
700W(SXM)
350-400W(NVL)
700W(SXM)
600W(NVL)
显存 32GB/16GB HBM2(PCIe&SXM2)
32GB HBM2(V100S)
16GB GDDR6 80GB HBM2e 80GB(SXM)
94GB(NVL)
141GB 24GB
显存带宽 900GB/s(PCIe&SXM2)
1134GB/s(V100S)
300GB/s 1,935GB/s(PCIe)
2,039GB/s(SXM)
3.35TB/s(SXM)
3.9TB/s(NVL)
4.8TB/s 384-bit
GPU互联带宽(一对一) PCIe Gen3 32GB/s(PCIe)
NVLink 300GB/s(SXM2)
PCIe Gen3 32GB/s(V100S)
PCIe Gen3 32GB/s PCIe Gen4 64GB/s
NVLink 600GB/s
PCIe Gen5 128GB/s(SXM)
NVLink 900GB/s(SXM)
PCIe Gen5 128GB/s(NVL)
NVIDIA NVLink 600GB/s(NVL)
PCIe Gen5 128GB/s
NVLink 900GB/s
GPU互联带宽(一对多) PCIe Gen4 64GB/s
NVLink 600GB/s
FP64算力 9.7 TFLOPS 34 TFLOPS(SXM)
30 TFLOPS(NVL)
34 TFLOPS(SXM)
30 TFLOPS(NVL)
TF64算力
FP32算力 14 TFLOPS/15.7 TFLOPS 8.1 TFLOPS 19.5 TFLOPS 67 TFLOPS(SXM)
60 TFLOPS(NVL)
67 TFLOPS(SXM)
60 TFLOPS(NVL)
TF32算力 156 TFLOPS | 312 TFLOPS* 989 TFLOPS(SXM)
835 TFLOPS(NVL)
989 TFLOPS(SXM)
835 TFLOPS(NVL)
BF16算力 312 TFLOPS | 624 TFLOPS* 1979 TFLOPS(SXM)
1671 TFLOPS(NVL)
1979 TFLOPS(SXM)
1671 TFLOPS(NVL)
FP16算力 65 TFLOPS 312 TFLOPS | 624 TFLOPS* 1979 TFLOPS(SXM)
1671 TFLOPS(NVL)
1979 TFLOPS(SXM)
1671 TFLOPS(NVL)
83 TFLOPS | 191 TFLOPS*
FP8算力 3958 TFLOPS(SXM)
3341 TFLOPS(NVL)
3958 TFLOPS(SXM)
3341 TFLOPS(NVL)
INT8算力 130 TOPS 624 TOPS | 1248 TOPS* 3958 TOPS(SXM)
3341 TOPS(NVL)
3958 TOPS(SXM)
3341 TOPS(NVL)
INT4算力 260 TOPS

说明
显存带宽:指GPU从显存中读取或写入数据的速度
GPU互联带宽(一对一):指单个GPU与另一个GPU之间点对点通信的最大理论带宽。
GPU互联带宽(一对多):指单个GPU同时与多个GPU通信时,所有连接的总带宽上限。
*:With sparsity(稀疏性是一种通过减少模型中的非零元素数量来提高计算效率和减少资源消耗的技术。)

华为昇腾910B系列及910C核心参数整理


芯片型号 FP16算力 显存容量 卡间互联
910B2 376 TFLOPS 64GB 单机内:NPU Fullmesh全互联,互联带宽392GB/s
多机间:RoCE互联,互联带宽50GB/s
910B4 280 TFLOPS 32GB/64GB 单机内:NPU Fullmesh全互联,互联带宽392GB/s
多机间:RoCE互联,互联带宽50GB/s
910C 752 TFLOPS(训练)/560 TFLOPS(推理) 128GB 单机内:灵衢总线Switch互联,互联带宽784GB/s
多机间:超节点内灵衢总线Switch互联,互联带宽784GB/s

应用场景分析

根据芯片的性能特点,它们各自有非常明确的应用定位:

910B系列

  • 910B2 (高性能训练型):性能和成本的平衡之选。适合金融、科研、能源、大型企业用于训练10B-50B参数规模的大模型,追求高稳定性和低故障率。
  • 910B4 (推理/边缘型):轻量化、低成本。专为在线推理、API服务、视频分析、OCR等场景设计,由于显存(32GB)较小,不适合用于大模型训练,但因现阶段模型越来越大,32GB显存无法满足需求,华为将显存也提升到了64GB。

910C

  • 新一代高性能算力底座:作为迭代型号,其性能已跻身全球高端AI芯片梯队。目标应用场景是国家级算力基础设施、大规模AI训练集群、科学仿真计算等对算力有极致要求的任务。

参考文档