常见GPU算力(3090&3090Ti,GA102-300&GA102-350)
注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元
一、硬件参数
| 3090 | 3090Ti | |
| 核心 | GA102-300 | GA102-350 |
| 架构 | Ampere | Ampere |
| SM | 82 | 84 |
| CUDA Cores / SM | 128 | 128 |
| CUDA Cores / GPU | 10496 | 10752 |
| Tensor Cores / SM | 4 (3rd Gen) | 4 (3rd Gen) |
| Tensor Cores / GPU | 328 (3rd Gen) | 336 (3rd Gen) |
| GPU 加速频率 | 1695 MHz | 1860 MHz |
| 显存 | 24 GB (GDDR6X) | 24 GB (GDDR6X) |
| 显存位宽 | 384 bit | 384 bit |
| 显存速率 | 19.5 Gbps | 21 Gbps |
| 显存带宽 | 936.2 GBps | 1008 GBps |
| 一缓 | 128 KB (per SM) | 128 KB (per SM) |
| 二缓 | 6 MB | 6 MB |
| TGP | 350 W | 450 W |
| 制程 | Samsung 8N (8nm) | Samsung 8N (8nm) |

注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元,这导致理论双精浮点算力只有单精浮点算力的 1/64 。
每个 SM 单元中有 4 个 Tensor Core,因此 GA102-300 总共含有 328 个 Tensor Core,GA102-350 总共含有 336 个 Tensor Core。支持的数据类型有 FP16、BF16、TF32、INT8、INT4,不支持 FP64。
二、算力
1、CUDA Core 算力
浮点:TFLOPS
整型:TIOPS
| 3090 | 3090Ti | |
| FP32 | 35.58 | 40.00 |
| FP16 | 35.58 | 40.00 |
| FP64 | 0.556 | 0.625 |
| BF16 | 35.58 | 40.00 |
| INT32 | 17.79 | 20.00 |
2、Tensor Core 算力
浮点:TFLOPS
整型:TIOPS
稠密/稀疏
| 3090 | 3090Ti | |
| FP16 | 142 / 284 | 160 / 320 |
| BF16 | 71 / 142 | 80 / 160 |
| TF32 | 35.6 / 71 | 40 / 80 |
| INT8 | 284 / 568 | 320 / 640 |
| INT4 | 568 / 1136 | 640 / 1280 |
更多推荐


所有评论(0)