主流GPU配置信息整理

发表于 2025-03-20 更新于 2026-03-26 阅读次数：本文字数： 1.1k 阅读时长 ≈ 4 分钟

自从DeepSeek出圈后，智算算力需求突增，经常会被问到一些关于GPU卡算力数据问题，所以花了点时间整理以下内容，供个人速查，如有错误，欢迎指正~

NVIDIA GPU的命名约定

NVIDIA GPU型号名称中的首字母表示其GPU架构，对应关系如下

首字母	GPU架构	推出时间
V	Volta	2017
T	Turing	2018
A	Ampere	2020
H	Hopper	2022
B	Blackwell	2024

说明
在2025年英伟达GPU技术大会（GTC）大会上老黄也预告了后面几代GPU的命名，Vera Rubin（预计2026下半年）、Rubin Ultra（预计2027下半年）、Feynman

NVIDIA GPU配置信息整理

型号	V100 PCIe V100 SXM2 V100S PCIe	T4	A100 PCIe A100 SXM	H100 SXM H100 NVL	H200 SXM H200 NVL	GeForce RTX 4090
发布时间	2017	2018	2020	2022	2023	2022
架构	Volta	Turing	Ampere	Hopper	Hopper
Tensor Core数量	640	320
CUDA Core数量	5120	2560				16384
最大功率	250W(PCIe) 300W(SXM2) 250W(V100S)	70W	300W(PCIe) 400W(SXM)	700W(SXM) 350-400W(NVL)	700W(SXM) 600W(NVL)
显存	32GB/16GB HBM2(PCIe&SXM2) 32GB HBM2(V100S)	16GB GDDR6	80GB HBM2e	80GB(SXM) 94GB(NVL)	141GB	24GB
显存带宽	900GB/s(PCIe&SXM2) 1134GB/s(V100S)	300GB/s	1,935GB/s(PCIe) 2,039GB/s(SXM)	3.35TB/s(SXM) 3.9TB/s(NVL)	4.8TB/s	384-bit
GPU互联带宽（一对一）	PCIe Gen3 32GB/s(PCIe) NVLink 300GB/s(SXM2) PCIe Gen3 32GB/s(V100S)	PCIe Gen3 32GB/s	PCIe Gen4 64GB/s NVLink 600GB/s	PCIe Gen5 128GB/s(SXM) NVLink 900GB/s(SXM) PCIe Gen5 128GB/s(NVL) NVIDIA NVLink 600GB/s(NVL)	PCIe Gen5 128GB/s NVLink 900GB/s
GPU互联带宽（一对多）			PCIe Gen4 64GB/s NVLink 600GB/s
FP64算力			9.7 TFLOPS	34 TFLOPS(SXM) 30 TFLOPS(NVL)	34 TFLOPS(SXM) 30 TFLOPS(NVL)
TF64算力
FP32算力	14 TFLOPS/15.7 TFLOPS	8.1 TFLOPS	19.5 TFLOPS	67 TFLOPS(SXM) 60 TFLOPS(NVL)	67 TFLOPS(SXM) 60 TFLOPS(NVL)
TF32算力			156 TFLOPS \| 312 TFLOPS`*`	989 TFLOPS(SXM) 835 TFLOPS(NVL)	989 TFLOPS(SXM) 835 TFLOPS(NVL)
BF16算力			312 TFLOPS \| 624 TFLOPS`*`	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)
FP16算力		65 TFLOPS	312 TFLOPS \| 624 TFLOPS`*`	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)	83 TFLOPS \| 191 TFLOPS`*`
FP8算力				3958 TFLOPS(SXM) 3341 TFLOPS(NVL)	3958 TFLOPS(SXM) 3341 TFLOPS(NVL)
INT8算力		130 TOPS	624 TOPS \| 1248 TOPS`*`	3958 TOPS(SXM) 3341 TOPS(NVL)	3958 TOPS(SXM) 3341 TOPS(NVL)
INT4算力		260 TOPS

说明
显存带宽：指GPU从显存中读取或写入数据的速度
GPU互联带宽（一对一）：指单个GPU与另一个GPU之间点对点通信的最大理论带宽。
GPU互联带宽（一对多）：指单个GPU同时与多个GPU通信时，所有连接的总带宽上限。
*：With sparsity（稀疏性是一种通过减少模型中的非零元素数量来提高计算效率和减少资源消耗的技术。）

华为昇腾910B系列及910C核心参数整理

芯片型号	FP16算力	显存容量	卡间互联
910B2	376 TFLOPS	64GB	单机内：NPU Fullmesh全互联，互联带宽392GB/s 多机间：RoCE互联，互联带宽50GB/s
910B4	280 TFLOPS	32GB/64GB	单机内：NPU Fullmesh全互联，互联带宽392GB/s 多机间：RoCE互联，互联带宽50GB/s
910C	752 TFLOPS(训练)/560 TFLOPS(推理)	128GB	单机内：灵衢总线Switch互联，互联带宽784GB/s 多机间：超节点内灵衢总线Switch互联，互联带宽784GB/s

应用场景分析

根据芯片的性能特点，它们各自有非常明确的应用定位：

910B系列

910B2 (高性能训练型)：性能和成本的平衡之选。适合金融、科研、能源、大型企业用于训练10B-50B参数规模的大模型，追求高稳定性和低故障率。
910B4 (推理/边缘型)：轻量化、低成本。专为在线推理、API服务、视频分析、OCR等场景设计，由于显存（32GB）较小，不适合用于大模型训练，但因现阶段模型越来越大，32GB显存无法满足需求，华为将显存也提升到了64GB。

910C

新一代高性能算力底座：作为迭代型号，其性能已跻身全球高端AI芯片梯队。目标应用场景是国家级算力基础设施、大规模AI训练集群、科学仿真计算等对算力有极致要求的任务。

参考文档

0%