主流GPU配置信息整理
自从DeepSeek出圈后,智算算力需求突增,经常会被问到一些关于GPU卡算力数据问题,所以花了点时间整理以下内容,供个人速查,如有错误,欢迎指正~
NVIDIA GPU的命名约定
NVIDIA GPU型号名称中的首字母表示其GPU架构,对应关系如下
| 首字母 | GPU架构 | 推出时间 |
|---|---|---|
| V | Volta | 2017 |
| T | Turing | 2018 |
| A | Ampere | 2020 |
| H | Hopper | 2022 |
| B | Blackwell | 2024 |
说明
在2025年英伟达GPU技术大会(GTC)大会上老黄也预告了后面几代GPU的命名,Vera Rubin(预计2026下半年)、Rubin Ultra(预计2027下半年)、Feynman
NVIDIA GPU配置信息整理
| 型号 | V100 PCIe V100 SXM2 V100S PCIe |
T4 | A100 PCIe A100 SXM |
H100 SXM H100 NVL |
H200 SXM H200 NVL |
GeForce RTX 4090 |
|---|---|---|---|---|---|---|
| 发布时间 | 2017 | 2018 | 2020 | 2022 | 2023 | 2022 |
| 架构 | Volta | Turing | Ampere | Hopper | Hopper | |
| Tensor Core数量 | 640 | 320 | ||||
| CUDA Core数量 | 5120 | 2560 | 16384 | |||
| 最大功率 | 250W(PCIe) 300W(SXM2) 250W(V100S) |
70W | 300W(PCIe) 400W(SXM) |
700W(SXM) 350-400W(NVL) |
700W(SXM) 600W(NVL) |
|
| 显存 | 32GB/16GB HBM2(PCIe&SXM2) 32GB HBM2(V100S) |
16GB GDDR6 | 80GB HBM2e | 80GB(SXM) 94GB(NVL) |
141GB | 24GB |
| 显存带宽 | 900GB/s(PCIe&SXM2) 1134GB/s(V100S) |
300GB/s | 1,935GB/s(PCIe) 2,039GB/s(SXM) |
3.35TB/s(SXM) 3.9TB/s(NVL) |
4.8TB/s | 384-bit |
| GPU互联带宽(一对一) | PCIe Gen3 32GB/s(PCIe) NVLink 300GB/s(SXM2) PCIe Gen3 32GB/s(V100S) |
PCIe Gen3 32GB/s | PCIe Gen4 64GB/s NVLink 600GB/s |
PCIe Gen5 128GB/s(SXM) NVLink 900GB/s(SXM) PCIe Gen5 128GB/s(NVL) NVIDIA NVLink 600GB/s(NVL) |
PCIe Gen5 128GB/s NVLink 900GB/s |
|
| GPU互联带宽(一对多) | PCIe Gen4 64GB/s NVLink 600GB/s |
|||||
| FP64算力 | 9.7 TFLOPS | 34 TFLOPS(SXM) 30 TFLOPS(NVL) |
34 TFLOPS(SXM) 30 TFLOPS(NVL) |
|||
| TF64算力 | ||||||
| FP32算力 | 14 TFLOPS/15.7 TFLOPS | 8.1 TFLOPS | 19.5 TFLOPS | 67 TFLOPS(SXM) 60 TFLOPS(NVL) |
67 TFLOPS(SXM) 60 TFLOPS(NVL) |
|
| TF32算力 | 156 TFLOPS | 312 TFLOPS* |
989 TFLOPS(SXM) 835 TFLOPS(NVL) |
989 TFLOPS(SXM) 835 TFLOPS(NVL) |
|||
| BF16算力 | 312 TFLOPS | 624 TFLOPS* |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
|||
| FP16算力 | 65 TFLOPS | 312 TFLOPS | 624 TFLOPS* |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
83 TFLOPS | 191 TFLOPS* |
|
| FP8算力 | 3958 TFLOPS(SXM) 3341 TFLOPS(NVL) |
3958 TFLOPS(SXM) 3341 TFLOPS(NVL) |
||||
| INT8算力 | 130 TOPS | 624 TOPS | 1248 TOPS* |
3958 TOPS(SXM) 3341 TOPS(NVL) |
3958 TOPS(SXM) 3341 TOPS(NVL) |
||
| INT4算力 | 260 TOPS |
说明
显存带宽:指GPU从显存中读取或写入数据的速度
GPU互联带宽(一对一):指单个GPU与另一个GPU之间点对点通信的最大理论带宽。
GPU互联带宽(一对多):指单个GPU同时与多个GPU通信时,所有连接的总带宽上限。*:With sparsity(稀疏性是一种通过减少模型中的非零元素数量来提高计算效率和减少资源消耗的技术。)
华为昇腾910B系列及910C核心参数整理
| 芯片型号 | FP16算力 | 显存容量 | 卡间互联 |
|---|---|---|---|
| 910B2 | 376 TFLOPS | 64GB | 单机内:NPU Fullmesh全互联,互联带宽392GB/s 多机间:RoCE互联,互联带宽50GB/s |
| 910B4 | 280 TFLOPS | 32GB/64GB | 单机内:NPU Fullmesh全互联,互联带宽392GB/s 多机间:RoCE互联,互联带宽50GB/s |
| 910C | 752 TFLOPS(训练)/560 TFLOPS(推理) | 128GB | 单机内:灵衢总线Switch互联,互联带宽784GB/s 多机间:超节点内灵衢总线Switch互联,互联带宽784GB/s |
应用场景分析
根据芯片的性能特点,它们各自有非常明确的应用定位:
910B系列
- 910B2 (高性能训练型):性能和成本的平衡之选。适合金融、科研、能源、大型企业用于训练10B-50B参数规模的大模型,追求高稳定性和低故障率。
- 910B4 (推理/边缘型):轻量化、低成本。专为在线推理、API服务、视频分析、OCR等场景设计,由于显存(32GB)较小,不适合用于大模型训练,但因现阶段模型越来越大,32GB显存无法满足需求,华为将显存也提升到了64GB。
910C
- 新一代高性能算力底座:作为迭代型号,其性能已跻身全球高端AI芯片梯队。目标应用场景是国家级算力基础设施、大规模AI训练集群、科学仿真计算等对算力有极致要求的任务。