英伟达(NVIDIA)的GPU发展史是一部从专用图形处理到通用并行计算,再到如今主导人工智能计算的宏伟史诗。自1999年正式提出“GPU”概念以来,英伟达已推出了十余代核心架构,每一次迭代都深刻地影响了计算机图形学、高性能计算和人工智能的发展轨迹。

以下是英伟达历代GPU产品的核心架构演进史,可以将其划分为四个关键阶段:


第一阶段:图形处理时代 (1999-2005)

核心任务: 将图形计算从CPU中解放出来,实现硬件加速,并从固定功能管线迈向可编程渲染。

  1. Celsius 架构 (1999年)

    • 里程碑产品GeForce 256 (NV10)
    • 历史意义: 全球首款被正式定义为“GPU”的产品。它首次集成了硬件“变换与光照”(T&L)引擎,将原本由CPU承担的几何计算任务接管过来,彻底解放了CPU。
    • 关键参数: 220nm制程,约1700-2300万晶体管,4条像素渲染管线(256-bit渲染引擎),支持AGP 4x。其多边形处理能力是当时CPU的5倍。
  2. Kelvin 架构 (2001年)

    • 里程碑产品: GeForce 3 (NV20)、GeForce 2 GTS
    • 历史意义: 开启了GPU的“可编程渲染”时代。引入了可编程顶点着色器和像素着色器,使开发者能通过代码控制渲染流程,而非依赖固定的硬件功能。
    • 关键参数: 150nm制程,约5700万晶体管。GeForce 3是全球首款支持DirectX 8.1的消费级GPU。
  3. Rankine 架构 (2003年)

    • 里程碑产品GeForce FX 5系列 (NV3x),如FX 5100
    • 历史意义: 将可编程渲染技术下沉至入门级市场,普及了DirectX 9.0a。尽管因硬件规格限制成为一款“过渡性”产品,但它为后续架构奠定了基础。
    • 关键参数: 150nm/130nm制程,约4500万晶体管,支持顶点和片段程序。
  4. Curie 架构 (2004年)

    • 里程碑产品: GeForce 6系列 (NV4x),如6800 Ultra
    • 历史意义: 全面支持DirectX 9.0c和Shader Model 3.0,实现了“全功能可编程”。同时引入了PureVideo硬件视频解码技术,减轻了CPU在高清视频播放上的负担。
    • 关键参数: 130nm制程,约2.22亿晶体管,是当时性能的巅峰。

第二阶段:通用计算探索时代 (2006-2016)

核心任务: 打破图形与计算的边界,通过CUDA平台让GPU成为通用的并行计算引擎(GPGPU)。

  1. Tesla 架构 (2006年)

    • 里程碑产品GeForce 8800 GTX (G80)
    • 历史意义: 英伟达GPU发展史上的分水岭。它引入了统一渲染架构(Unified Shader Architecture),将顶点、像素、几何着色器合并为通用的流处理器(CUDA核心),解决了资源分配不均的问题。同年,CUDA平台发布,让开发者能用C语言在GPU上进行通用计算。
    • 关键参数: 90nm制程,约6.81亿晶体管,支持DirectX 10。
  2. Fermi 架构 (2010年)

    • 里程碑产品GeForce GTX 480 (GF100)
    • 历史意义: 首个专为通用计算设计的架构,标志着GPU在高性能计算(HPC)领域的正式崛起。引入了L1/L2缓存层次结构、ECC内存纠错和GPUDirect技术。
    • 关键参数: 40nm制程,约30亿晶体管,双精度浮点性能达1 TFLOPS,被用于“美洲豹”等超级计算机。
  3. Kepler 架构 (2012年)

    • 里程碑产品: GeForce GTX 680 (GK104)、Tesla K20/K40/K80
    • 历史意义: 专注于提升能效比和并行计算效率。计算能力比Fermi提升3-4倍,使GPU成为科学计算和大数据分析的核心。
    • 关键参数: 28nm制程,GK110核心拥有2880个CUDA核心,带宽高达288GB/s。
  4. Maxwell 架构 (2014年)

    • 里程碑产品GeForce GTX 980 (GM204)、Tesla M40
    • 历史意义: 实现了能效比的革命性突破,在相同功耗下性能是Kepler的两倍。优化了流式多处理器(SMM)设计,为后续架构奠定了基础。
    • 关键参数: 28nm制程,GM204核心集成1920个CUDA核心。
  5. Pascal 架构 (2016年)

    • 里程碑产品GeForce GTX 1080 (GP102)、Tesla P100
    • 历史意义: 采用16nm FinFET工艺,能效比再次飞跃。首次引入NVLink技术,实现了GPU间的高速互联,并率先采用GDDR5X显存,为深度学习训练提供了强大硬件基础。
    • 关键参数: GP100核心拥有3840个CUDA核心,显存带宽达732GB/s。

第三阶段:AI加速革命时代 (2017-2022)

核心任务: 专为AI和深度学习优化,引入Tensor Core和RT Core,引领AI算力爆炸式增长。

  1. Volta 架构 (2017年)

    • 里程碑产品Tesla V100 (GV100)、Titan V
    • 历史意义: AI计算的里程碑。首次引入Tensor Core(张量核心),专门加速深度学习的矩阵运算,使AI训练性能比Pascal提升12倍。
    • 关键参数: 12nm制程,集成640个Tensor Core,提供125万亿次张量浮点运算能力(TFLOPS)。
  2. Turing 架构 (2018年)

    • 里程碑产品GeForce RTX 2080 Ti (TU102)、Quadro RTX 6000
    • 历史意义: 将实时光线追踪带入消费级市场。在Tensor Core基础上,新增了RT Core(光线追踪核心),实现了硬件加速的光线追踪计算。
    • 关键参数: 12nm制程,RTX 2080 Ti集成了68个RT Core和576个Tensor Core。
  3. Ampere 架构 (2020年)

    • 里程碑产品: GeForce RTX 3090 (GA102)Tesla A100
    • 历史意义: AI与图形性能的全面跃升。第二代Tensor Core和RT Core性能大幅提升,A100成为大语言模型训练的“标配”。
    • 关键参数: 三星8nm制程,A100拥有6912个CUDA核心和432个第三代Tensor Core,FP16算力达312 TFLOPS(开启稀疏性后达624 TFLOPS)。

第四阶段:生成式AI时代 (2024-至今)

核心任务: 为万亿参数级的大模型提供极致算力、海量显存和超高互联带宽。

  1. Hopper 架构 (2022年)

    • 里程碑产品H100 / H800 (GH100)
    • 历史意义: 为Transformer模型结构深度优化。第四代Tensor Core和NVLink 4.0的加入,使H100的FP16算力达到1 PFLOPS,成为当时的性能王者。
    • 关键参数: 台积电4nm制程,集成800亿晶体管,H100 SXM版本拥有13TB/s的显存带宽。
  2. Blackwell 架构 (2024年)

    • 里程碑产品B200 / GB200
    • 历史意义: 集十年技术之大成,专为下一代生成式AI设计。通过创新的双芯设计(如GB200将两颗B200和一颗Grace CPU集成),在算力、显存容量和互联带宽上实现指数级增长。
    • 关键参数: 采用定制化4nm工艺,B200拥有192GB HBM3e显存,带宽达8TB/s。GB200 NVL72集群的FP16算力高达180 PFLOPS,是前代H100集群的5.6倍。

历代GPU架构演进速览表

架构名称 发布年份 关键制程 里程碑产品 核心技术创新 历史地位
Celsius 1999 220nm GeForce 256 硬件T&L,首次提出GPU概念 开启GPU时代
Kelvin 2001 150nm GeForce 3 可编程顶点/像素着色器 迈向可编程渲染
Rankine 2003 150nm GeForce FX 5 DirectX 9.0a支持 普及可编程渲染
Curie 2004 130nm GeForce 6 Shader Model 3.0, PureVideo 统一着色器架构前身
Tesla 2006 90nm GeForce 8800 GTX 统一渲染架构CUDA平台 GPGPU通用计算开端
Fermi 2010 40nm GeForce GTX 480 L1/L2缓存,ECC,专为计算设计 高性能计算崛起
Kepler 2012 28nm GeForce GTX 680 SMX架构,能效比大增 成为超算核心
Maxwell 2014 28nm GeForce GTX 980 极致能效比 移动端与节能计算
Pascal 2016 16nm GeForce GTX 1080 FinFET,NVLink,GDDR5X 深度学习硬件基础
Volta 2017 12nm Tesla V100 第一代Tensor Core AI加速革命起点
Turing 2018 12nm GeForce RTX 2080 Ti RT Core,实时光线追踪 图形技术新突破
Ampere 2020 8nm GeForce RTX 3090, A100 第二/三代Tensor Core,MIG 大模型训练标配
Hopper 2022 4nm H100 第四代Tensor Core,Transformer引擎 AI算力新王者
Blackwell 2024 4nm (定制) B200, GB200 双芯设计,192GB HBM3e 生成式AI新基石

从最初的图形加速器到如今驱动全球AI革命的计算引擎,英伟达GPU的演进史就是一部不断突破边界、重塑行业的创新史。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐