一、硬件参数

3090 3090Ti
核心 GA102-300 GA102-350
架构 Ampere Ampere
SM 82 84
CUDA Cores / SM 128 128
CUDA Cores / GPU 10496 10752
Tensor Cores / SM 4 (3rd Gen) 4 (3rd Gen)
Tensor Cores / GPU 328 (3rd Gen) 336 (3rd Gen)
GPU 加速频率 1695 MHz 1860 MHz
显存 24 GB (GDDR6X) 24 GB (GDDR6X)
显存位宽 384 bit 384 bit
显存速率 19.5 Gbps 21 Gbps
显存带宽 936.2 GBps 1008 GBps
一缓 128 KB (per SM) 128 KB (per SM)
二缓 6 MB 6 MB
TGP 350 W 450 W
制程 Samsung 8N (8nm) Samsung 8N (8nm)

 

         注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元,这导致理论双精浮点算力只有单精浮点算力的 1/64 。

        每个 SM 单元中有 4 个 Tensor Core,因此 GA102-300 总共含有 328 个 Tensor Core,GA102-350 总共含有 336 个 Tensor Core。支持的数据类型有 FP16、BF16、TF32、INT8、INT4,不支持 FP64。

二、算力

1、CUDA Core 算力

浮点:TFLOPS

整型:TIOPS

3090 3090Ti
FP32 35.58 40.00
FP16 35.58 40.00
FP64 0.556 0.625
BF16 35.58 40.00
INT32 17.79 20.00

2、Tensor Core 算力

浮点:TFLOPS

整型:TIOPS

稠密/稀疏

3090 3090Ti
FP16 142 / 284 160 / 320
BF16 71 / 142 80 / 160
TF32 35.6 / 71 40 / 80
INT8 284 / 568 320 / 640
INT4 568 / 1136 640 / 1280

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐