常见GPU算力（3090&3090Ti，GA102-300&GA102-350）

注意到，完整 GA102 核心有 7 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA102 核心共有 84 个 SM 单元，但 GA102-300 只开启其中的 82 个，GA102-350 开启全部的 84 个 SM 单元。值得注意的是，从 3090 开始（包括后续的 4090 和 5090），每个 SM 中只有 2 个 FP64 计算单元

Dolphin期材

4129人浏览 · 2025-02-03 10:55:45

Dolphin期材 · 2025-02-03 10:55:45 发布

一、硬件参数

	3090	3090Ti
核心	GA102-300	GA102-350
架构	Ampere	Ampere
SM	82	84
CUDA Cores / SM	128	128
CUDA Cores / GPU	10496	10752
Tensor Cores / SM	4 (3rd Gen)	4 (3rd Gen)
Tensor Cores / GPU	328 (3rd Gen)	336 (3rd Gen)
GPU 加速频率	1695 MHz	1860 MHz
显存	24 GB (GDDR6X)	24 GB (GDDR6X)
显存位宽	384 bit	384 bit
显存速率	19.5 Gbps	21 Gbps
显存带宽	936.2 GBps	1008 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	6 MB	6 MB
TGP	350 W	450 W
制程	Samsung 8N (8nm)	Samsung 8N (8nm)

注意到，完整 GA102 核心有 7 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA102 核心共有 84 个 SM 单元，但 GA102-300 只开启其中的 82 个，GA102-350 开启全部的 84 个 SM 单元。每个 SM 单元中有 128 个 CUDA 计算单元，其中 64 个 CUDA 可以计算 FP32 或 INT32，另外 64 个只能计算 INT32。值得注意的是，从 3090 开始（包括后续的 4090 和 5090），每个 SM 中只有 2 个 FP64 计算单元，这导致理论双精浮点算力只有单精浮点算力的 1/64 。

每个 SM 单元中有 4 个 Tensor Core，因此 GA102-300 总共含有 328 个 Tensor Core，GA102-350 总共含有 336 个 Tensor Core。支持的数据类型有 FP16、BF16、TF32、INT8、INT4，不支持 FP64。

二、算力

1、CUDA Core 算力

浮点：TFLOPS

整型：TIOPS

	3090	3090Ti
FP32	35.58	40.00
FP16	35.58	40.00
FP64	0.556	0.625
BF16	35.58	40.00
INT32	17.79	20.00

2、Tensor Core 算力

浮点：TFLOPS

整型：TIOPS

稠密/稀疏

	3090	3090Ti
FP16	142 / 284	160 / 320
BF16	71 / 142	80 / 160
TF32	35.6 / 71	40 / 80
INT8	284 / 568	320 / 640
INT4	568 / 1136	640 / 1280

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026年最新AI大模型学习路线，零基础入门到精通（非常详细）收藏这一篇就够了！

2048 AI社区

国产麒麟系统安装部署OpenClaw完整指南（适配V10/VSP）国产操作系统的AI智能体部署

2048 AI社区

Jenkins 自动化部署：从代码提交到上线一条龙

本文系统介绍Jenkins自动化部署从代码提交到上线的完整流程。文章从CI/CD核心理念入手，解析Jenkins Master-Agent分布式架构与Pipeline as Code的设计思想，详细阐述代码检出、构建编译、自动测试、制品归档、部署验证等流水线各阶段。同时探讨凭据管理、性能优化、高可用架构与质量门禁等生产环境最佳实践，为读者提供构建标准化、自动化、可重复的CI/CD流水线的完整指南，