Trillium TPU基本概况

Trillium(TPU v6e)是Google于2024年5月15日正式发布、同年12月12日全面向Cloud客户开放的第六代张量处理单元(TPU),是Google十多年AI专用芯片研发的集大成之作。

核心定位:专为大规模AI训练和推理设计,特别是针对大语言模型(LLM)、多模态和推荐系统进行优化,是Google"推理时代最省钱的商业引擎"战略的硬件核心。

技术规格与性能突破

参数 TPU v5e Trillium (v6e) 提升
计算性能 197 TFLOPS (bf16) 918 TFLOPS (bf16) 4.7倍
393 TOPs (Int8) 1,836 TOPs (Int8) 4.7倍
内存 16 GB HBM 32 GB HBM 2倍
内存带宽 800 GB/s 1,600 GB/s 2倍
芯片间互联 1,600 Gbps 3,200 Gbps 2倍
能效比 基准值 提升67% 能耗降低67%
特殊功能 - SparseCore (第三代) 加速超大规模嵌入处理

核心架构创新

1. 增强型脉动阵列(Systolic Array)

  • 256×256矩阵乘法单元,是v5e(128×128)的4倍,单周期MAC吞吐量大幅提升
  • 专为Transformer架构优化,与注意力机制计算模式高度契合

2. SparseCore专用加速器

  • 专为处理推荐系统和大模型中常见的超大规模嵌入表设计
  • 通过策略性卸载TensorCore的随机和细粒度访问,显著提升性能和能效

3. 系统级创新

  • 单机柜最大256芯片的Pod架构,支持2D torus互联拓扑
  • 单个Pod总性能达234.9 PFLOPS (bf16),是v5e Pod(50.63 PFLOPS)的4.6倍
  • 与Jupiter数据中心网络集成,支持跨Pod扩展至数万芯片,形成"AI超级计算机"

Trillium TPU的应用场景

  • Gemini系列模型训练与推理:Google DeepMind用其加速Gemini 3等下一代多模态模型开发
  • 推荐系统:支持万亿级参数推荐模型训练和低延迟线上服务
  • 内容生成:赋能文本-to-image、视频生成等创意AI应用,如Imagen 3和Gemma 2
  • 科学计算:助力药物发现(如Deep Genomics)和气候模拟等计算密集型研究

Google TPU发展历程

起源(2006-2013):从构想走向实践

  • 2006年:Google开始探索为神经网络构建专用ASIC的可能性,但因当时GPU资源充足,未正式推进

  • 2013年底:Google正式启动TPU项目,由Norm Jouppi领导的团队负责开发,目标是解决深度学习带来的算力瓶颈和能耗危机

  • 2015年:随着深度学习在Google服务(搜索、广告等)中广泛应用,团队意识到依赖GPU将导致数据中心电力成本增长十倍,自研ASIC成为唯一可行路径

历代TPU演进:从推理芯片到AI基础设施

TPU v1 (2016年):初试锋芒

  • 首款专用AI加速器,采用28nm工艺,700MHz频率,功耗75W
  • 核心创新:采用"脉动阵列"(Systolic Array)架构,专为矩阵运算优化,性能达92 TOPS (Int8)
  • 应用场景:初期用于Google翻译和搜索功能,支撑AlphaGo击败李世石的算力需求

TPU v2 (2017年):架构突破

  • 16nm工艺,首次引入高带宽内存HBM,容量16GB,带宽700GB/s

  • 计算性能:单芯片45 TFLOPS (bf16),四芯片模块达180 TFLOPS

  • 里程碑首次提出TPU Pod概念,由256颗芯片组成,总性能达11.5 PFLOPS,开启超大规模AI计算时代

  • 战略转变:同年Transformer论文发表,Google发现其计算模式与TPU架构高度匹配,TPU从单一芯片升级为AI基础设施底座

TPU v3 (2018年):性能飞跃

  • 性能提升:相比v2,计算性能提升2.7倍,达420 TFLOPS (bf16),内存带宽提升至900GB/s

  • 互联升级2D torus拓扑扩展至1,024颗芯片,Pod总性能突破100 PFLOPS,达126 PFLOPS (bf16)

  • 功耗优化:能效比(TOPS/W)从v2的0.16提升至0.56,在保持高性能的同时提高能源效率

TPU v4 (2021年):制程革命

  • 工艺突破从16nm跃升至7nm,芯片尺寸达780mm²,内存带宽提升至1,200GB/s,功耗控制在300W

  • 架构创新3D torus互联提供更高带宽和容错能力,支持4,096颗芯片集成,单Pod总性能达1.126 EFLOPS (bf16)

  • 模型训练:成功支持PaLM 540B等千亿级参数模型训练,奠定Google在大模型领域的领先地位

TPU v5系列 (2023-2024):商业落地

  • v5p性能较v4翻倍,首次大规模应用于Google广告系统、搜索排序和YouTube推荐等核心产品线,标志TPU从"实验室"走向"赚钱机器"

  • 弹性架构:支持客户按需扩展至近9,000颗芯片,吸引Meta、Anthropic等头部AI公司评估采购

Trillium (TPU v6e):推理时代的王者

  • 性能巅峰:单芯片918 TFLOPS(bf16),是v5e的4.7倍;1,836 TOPs(Int8),适合FP8量化模型加速

  • 内存升级32GB HBM,带宽1,600GB/s,支持更大模型和KV缓存,大幅提升推理效率

  • 专用引擎第三代SparseCore,专为推荐系统和大规模嵌入表优化,显著提升推荐模型训练和推理性能

  • 推理优化KV缓存访问深度优化,片上SRAM容量翻倍,首Token响应延迟降低,成为"推理成本杀手"

TPU的核心设计哲学

极简主义脉动阵列:与GPU通用计算架构不同,TPU采用极简"脉动阵列",牺牲通用性换取极致效率,专为深度学习矩阵运算定制,使能效比同期GPU高2-3倍。

垂直整合战略:Google构建了"芯片-云-模型-应用"全栈能力,从芯片设计到数据中心网络、软件框架(XLA、JAX)全部自研,避免"CUDA税",形成难以复制的成本和性能优势。

TPU与Google AI生态

模型训练:支撑Gemini 3、Imagen 3、AlphaFold等旗舰模型训练,使Google能够以更低成本、更快速度迭代模型。

推理服务:为Google搜索、广告、翻译等核心服务提供低延迟、高吞吐的AI推理能力,同时通过Google Cloud向全球客户提供TPU服务。

总结

Trillium TPU代表了Google在AI专用芯片领域的最新突破,标志着TPU从"训练导向"向"推理与训练并重"的战略转型,为Google在大模型时代的领先地位提供了强大的硬件支撑。随着TPU v7(Ironwood)的即将推出,Google正持续强化其在AI基础设施领域的领导地位,推动AI技术向更高效、更经济的方向发展。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐