随着AI模型日益复杂,AI系统需要具备更高容量、更低延迟、更高带宽以及更优能效的内存。不同形式的内存在性能上存在不同的权衡。SRAM速度极快但密度低。DDR DRAM密度高且成本低但带宽不足。当今最流行的内存是片上HBM,它在容量和带宽之间取得了最佳平衡。
在这里插入图片描述

HBM结合了垂直堆叠的DRAM芯片和超宽数据通路,为AI工作负载提供了带宽、密度和能耗方面的最佳平衡。HBM的生产成本要高得多,相对于DDR5具有合理的溢价,但市场对HBM的需求依然强劲。所有用于生成式AI训练和推理的领先AI加速器都使用HBM。加速器路线图的普遍趋势是通过增加更多堆栈、更高层数和更快的HBM世代,来扩展单芯片的内存容量和带宽。
在这里插入图片描述

在本次内容中,我们将审视HBM的现状、供应链的动态以及未来正在发生的突破性变革。同时将审视HBM在AI加速器架构中的关键作用、HBM对DRAM市场的影响,以及它为何正在颠覆内存市场分析的方式。

HBM 基础

首先,简要介绍HBM——是什么让它特别且制造具有挑战性。虽然HBM通常与在3DIC组件中堆叠的多个DRAM芯片相关联,但其另一个关键特性是HBM宽得多的数据总线,即使在信号速度一般的情况下也能提升带宽。这种显著更宽的总线使得HBM在每封装带宽上远超任何其他形式的内存。
在这里插入图片描述

拥有更多I/O(输入/输出)的代价是布线密度和复杂性的增加。每个I/O都需要单独的导线/走线,此外还需要额外的布线用于电源和控制。对于一个HBM3E堆栈,在相邻的XPU(加速处理单元)和HBM之间有超过1000条导线。这种布线密度在PCB(印刷电路板)或封装基板上是无法实现的;因此,需要采用2.5D封装组件(如CoWoS)中的中介层(硅基或有机基)。

为了降低数据传输的延迟和能耗,HBM需要直接放置在计算引擎的海岸线(shoreline,即SOC边缘)附近。这使得海岸线(SOC的边缘)更有价值,因为HBM只能放置在SOC的两个边缘(另外两个边缘保留用于封装外I/O)。这限制了HBM可放置的区域,并要求垂直堆叠内存芯片以提供足够的容量。

为了实现3DIC外形规格,堆栈的每一层(堆栈顶部除外)都需要具备TSV(硅通孔)来为上层提供电源和信号。容纳这些TSV所需的额外面积使得HBM芯片尺寸大于其等效的DDR芯片:SK海力士的D1z DDR4比特密度为0.296 Gb/mm²,比其HBM3的0.16 Gb/mm²高出85%。这个TSV工艺是标准DRAM与HBM的关键区别之一,相关设备是将常规DDR DRAM晶圆产能转换为HBM产能的主要瓶颈。

另一个区别在于后端,HBM需要堆叠到总计9层或13层(8/12个DRAM层堆叠在底部的逻辑基础芯片之上)。与CoWoS一起,HBM将封装技术带入了主流。像MR-MUF(批量回流模塑底部填充)这样的小众封装技术现在已成为行业参与者的常识。

爆炸式增长的比特需求

从下图我们可以看到,随着AI加速器需求的增长,HBM比特需求也呈现巨大增长。尽管定制ASIC迅速崛起,到2027年,NVIDIA仍将占据HBM需求的最大份额,这由其激进的路线图驱动——仅Rubin Ultra就将单个GPU的容量推至1 TB。博通紧随其后,其TPU和MTIA(微软定制AI加速器)的销量激增,而OpenAI和软银的增量项目也带来较小但显著的提升。亚马逊也跻身顶级HBM客户之列。对于亚马逊而言,它采取的策略是直接采购HBM而非通过设计合作伙伴,这有助于降低成本。该模型包含按内存供应商划分的收入和比特需求预测,以及按供应商细分的晶圆启动量和TSV产能。该模型还追踪不同世代的HBM定价,并提供按芯片划分的HBM类型、层数、堆栈数量、容量和带宽数据。
在这里插入图片描述

工艺流程:前端

当常规DDR DRAM产能“转换”为HBM产能时——主要的变化是增加了用于形成TSV的设备,以及更多的凸块(Bumping)产能,因为HBM晶圆需要双面植凸块。这两个步骤都是为了实现3D堆叠,尽管对于顶层芯片使用的晶圆可以省略(仅需单面植凸块且不需要TSV)。

形成TSV需要刻蚀机(etcher)来创建通孔,以及沉积(deposition)和电镀(plating)工具来填充它们。为了暴露TSV,还需要研磨机(grinder)、另一个刻蚀步骤以及用于在此过程中附着载具晶圆的临时键合机(temporary bonder)。这就是为什么HBM产能现在以TSV产能来衡量,因为这是将DDR晶圆转化为HBM晶圆的主要增量工艺步骤。
在这里插入图片描述

对于植凸块,主要是沉积、电镀和剥离(stripping)工艺。此外,Camtek和Onto的光学检测工具可用于检查凸块是否存在缺陷以及轮廓是否正确。

工艺流程:封装

另一部分是后端封装,SK海力士(Hynix)继续在MR-MUF方面推进。简而言之,MR-MUF提供了更高的生产率和更好的热性能。SK海力士专有的(与NAMICS共同开发)模塑底部填充材料比美光(Micron)和三星(Samsung)使用的非导电薄膜(Non-Conductive Film, NCF)提供更好的散热。
在这里插入图片描述

SK海力士能够避开热压键合(Thermal Compression Bonding, TCB),因为他们找到了其他方法来管理翘曲(warpage)。TCB的一个优点是利用压力来稳定键合材料。然而,施加压力会增加损坏凸块的风险。通过对凸块施加应力,SK海力士还可以添加更多的虚设凸块(dummy bumps),这也有助于散热。
在这里插入图片描述

该工艺的生产率也高得多。它使用批量回流(batch mass reflow)和单次模塑覆盖(single over-mold)步骤来形成连接,而使用TC-NCF(热固化非导电薄膜)则需要对每一层进行完整的TCB步骤来形成连接。
在这里插入图片描述

工艺流程:良率

HBM是比其他DRAM形态更技术复杂的产品,尤其是考虑到高层的3DIC堆叠。因此,封装良率无法与制造商对其更传统产品所习惯的水平相比。然而,前端的良率也充满挑战,我们认为良率问题在前端更为突出。如上所述,HBM对速度分级(speed bin)的要求并不苛刻,那为什么会这样呢?

原因在于3DIC组装和TSV。挑战之一是电源分配网络(Power Distribution Network, PDN),TSV需要能够向堆栈上方输送电力。TSV的布局和设计是专有的,也是各制造商之间主要的差异化领域之一。

HBM的一个关键挑战是通过电源TSV向堆栈上方供电。刷新操作(Refresh operations)尤其消耗大量电力,电源分配网络的设计至关重要。
在这里插入图片描述

SK海力士的HBM3E减少了外围面积,并在芯片上引入了环绕式电源TSV(all-around power TSVs),而不是使用两排电源TSV,从而使TSV数量增加了近6倍。因此,SK海力士实现了低得多的IR压降(电压降),VPP压降降低了高达75%。
在这里插入图片描述

同样,美光在HBM技术上令人惊讶的飞跃(美光甚至没有提供标准的HBM3)归功于其对TSV和电源传输网络的专注。TSV网络似乎很可能是美光声称功耗降低30%的差异化点,尽管该声明尚未得到验证。
在这里插入图片描述

另一个方面是在功率和热预算范围内达到承诺的速度。 与任何3DIC组件一样,散热是一个问题,而DRAM尤其不耐热。超大规模数据中心的数据显示,HBM故障是GPU故障的首要原因,其发生频率高于数据中心中的其他芯片。

所有制造商的绝对良率都远低于其传统内存晶圆的水平,因此这是一个相对良率和最终经济效益的问题。对于SK海力士和美光而言,高定价足以弥补良率损失,因此HBM是增厚利润的。对于三星,良率甚至更差。具有讽刺意味的是,其低良率收紧了整体DRAM晶圆供应,导致价格更高。
这让我们谈到层数问题。更高的层数更难实现。简而言之,如果单层堆叠良率为x%,那么每增加一层,良率将累积为x%的n次方(n为键合步骤数,即总层数减1)。以一个8层堆栈、每层99%的堆叠良率为例;总良率将为92%。对于12层堆栈,则变为87%。当然,这过于简化了。随着层数增加,良率会下降,因为非关键的堆叠缺陷可能累积。例如,在少数几层中可接受的小量非共面性,在更高层数时可能导致无法接受的共面性偏差。

工艺流程:键合工具、SK海力士与韩美仪器的纠葛

键合(bonding)或芯片贴装(die attach)步骤是影响良率的关键因素,因此需要精密的工具。在TSV节距(pitch)约为40微米的情况下,键合机必须具有个位数甚至亚微米级的对准精度。均匀的压力分布对于避免翘曲(warpage)也至关重要,翘曲会在多层堆叠中加剧。当然,吞吐量也很重要,因为它影响成本。韩美仪器(Hanmi)很早就押注于为HBM开发热压(thermocompression, TC)键合机,这个领域当时被市场领导者Besi和ASMPT忽视。这一决策使其在当前HBM工艺中近乎垄断。在SK海力士,其份额曾为100%,直到去年秋天SK海力士向韩华(Hanwha)的竞争工具下了大订单。据称,他们为这些工具向韩华支付了更高的价格。
在这里插入图片描述
这在韩美仪器引发了一场风暴。可以理解的是,韩美仪器对竞争对手尽管未通过海力士供应给最大且最重要的HBM客户英伟达的工艺认证,却能以更高价格赢得订单感到不满。

争议在4月初达到白热化,当时韩美仪器将其现场服务团队撤出了SK海力士的工厂。没有服务,海力士可能数周甚至数月内无法出货其旗舰产品。长期来看,这将威胁整个加速器供应链,因为美光和三星无法迅速填补产能空缺。韩华的工具尚未交付,而去年秋天订购的一批ASMPT键合机无法用于SK海力士的HBM3E 12层堆栈。这使得工厂别无选择,只能向韩美仪器请求原谅。

在巨大压力下,SK海力士最近几周向韩美仪器下了一个小订单。这似乎更多是为了安抚韩美仪器,而非大额订单,但这足以恢复工具的现场服务。韩美仪器可能无法从其垄断地位中榨取更多利益了,因为ASMPT、Besi和其他公司正竞相改进其针对HBM的TC键合机。

中国:长鑫存储(CXMT)与华为的HBM

出口管制禁止所有未经封装的HBM堆栈进入中国;然而,只要不超过FLOPS(每秒浮点运算次数)规定,含有HBM的芯片仍可发货。目前,被禁的HBM仍在通过一个涉及CoAsia Electronics、Faraday和SPIL的网络再出口到中国,这使得中国的终端用户能够从GPU封装中拆焊并回收HBM。由于HBM是加速器的关键成分之一,且出口管制威胁到HBM供应,中国自然投入资源进行本土开发。中国已计划在未来五年内为国产半导体提供2000亿美元的补贴。预计其中相当一部分将用于HBM。中国DRAM国家队长鑫存储正积极扩张HBM产能,并囤积了大量设备以规避更新的出口管制(美国于2024年12月加强HBM管制,韩国最近也跟进)。其HBM2 8层堆栈将于2025年上半年进入量产,TSV产能到年底将与美光相当。

华为拥有自己的HBM关联企业:武汉新芯(XMC)生产HBM晶圆,盛合晶微(SJSemi)负责封装。当前产能处于研发规模,非大批量,但计划在未来几年内提升。武汉新芯和盛合晶微均被列入实体清单,因此被限制购买含美国技术来源的设备(GlobalFoundries最近因在无许可证情况下向盛合晶微出售超过1700万美元芯片而受到警告)。

HBM堆栈层数——追求更高,混合键合与否?

HBM堆栈中更多层数意味着更大的内存容量。每一代HBM的层数都在增加。迄今为止,这个堆栈高度一直控制在720微米高的立方体内(当前JEDEC标准)。为了容纳更多层,每片芯片(需要承受后续封装步骤中操作的顶层芯片除外)被做得更薄,芯片间的凸块间隙(bump gap)也被缩小,以腾出空间容纳更多层。更薄的芯片处理起来越来越困难,因此更容易发生翘曲和破裂,这会损害良率。混合键合(Hybrid Bonding, HB)对HBM的主要好处在于它是无凸块的(bump-less)。通过消除凸块间隙,这为容纳更多DRAM核心层腾出了空间。这引入了大量关于良率和成本的新挑战,可能得不偿失,特别是因为HBM不需要混合键合所提供的互连密度水平。如果有的话,制造商正在探索在混合键合中能多大程度放宽焊盘密度,以降低键合精度要求,使该技术对HBM更具可行性。HB也带来了一次性的功耗和散热优势,但主要优势在于堆栈高度。

HBM采用HB一直是“下一代”技术,目标也在不断变化。对于晶圆对芯片(D2W)混合键合来说,即使对于2层堆栈,要达到可接受的良率也极其困难且昂贵。想象一下将此问题扩展到16层及更高。内存厂商在混合键合技术开发上仍处于非常早期的阶段。根据台积电(TSMC)的经验,HB的采用花了很长时间才达到量产,即使在先进逻辑芯片中性能优势更明显的情况下——采用也经历了漫长过程。

HBM3和HBM3E正走向12层堆栈,而基于凸块的互连方式下,12层堆栈在当前720微米立方体厚度内已接近极限。要堆叠更高有两种解决方案:要么采用无凸块技术,要么使堆栈更高/更厚。对混合键合采用不利的是,JEDEC已选择后者,确认放宽堆栈高度至775微米。

高度限制还可能进一步放宽。775微米是硅晶圆的标准厚度。HBM需要与其共同封装的逻辑芯片高度相同。要拥有超过775微米的堆栈,逻辑晶圆也需要更厚,而现有设备并非设计用于接受更厚的晶圆。一个潜在的解决方案可能是增加逻辑芯片下方中介层(interposer)的模塑高度,将其抬高并确保与相邻HBM的共面性,尽管这会延长走线长度,并且实现用于互连的硅桥(silicon bridges)也非易事。
在这里插入图片描述

虽然最初关于HBM4采用HB的讨论更多,但这已被推迟到HBM4E。最近,海力士和美光对HB的采用都低调得多,而三星则最为高调。这对三星来说是典型的做法,它经常宣传最激进的技术实施以试图追赶,结果在执行上不出意料地失败,导致差距进一步拉大。

虽然16层堆栈通过增加堆栈高度得以解决,但要达到20层及以上,可能需要进一步缩小凸块间隙和更薄的晶圆,或者我们干脆将层数上限设定在16层。更高的堆栈可以获得更大的密度,但更多的堆栈则提供带宽和密度(指通过增加堆栈数量)。

吞吐量优化:I/O是AI加速器的命脉

AI加速器的关键定义特征是它们高度并行化并针对吞吐量进行优化。加速器旨在通过牺牲运算的复杂度来最大化每秒可执行的操作总数。大多数加速器专注于用于通用矩阵乘法(GEMM)的乘法和加法运算,这些运算在AI训练和推理工作负载中占主导地位。相比之下,CPU也关注每秒能执行的指令数,但CPU核心“更智能”,这需要多得多的电路和面积。因此,它们设计用于执行更广泛、更复杂的任务,但吞吐量要低得多。这意味着AI加速器需要大量的片外带宽用于内存以及纵向扩展(scale up)和横向扩展(scale out)的互连结构。需要带宽将处理后的数据移出芯片,同时向加速器单元输入更多待处理数据。没有足够的带宽,XPU的计算单元将无法得到充分利用,从而失去拥有所有这些并行计算能力的目的。让我们从内存需求开始。

内存容量增加
1.为了提供更高性能——增加内存容量和带宽以及FLOPs(每秒浮点运算次数)一直至关重要,这在加速器路线图中显而易见。容量和带宽在三个维度上扩展:更新代的HBM通过更快的信号速度和更高密度的核心芯片提供更高带宽
2.增加每堆栈的层数以提高容量。12层(12-high)HBM即将成为主流配置
3.增加每个封装上的HBM堆栈数量以增加带宽和容量

我们可以在英伟达的路线图中看到这一点。HBM容量从A100的80GB HBM2E爆炸式增长到Rubin Ultra的1024GB HBM4E。单芯片内存带宽也急剧增加。从Ampere到Blackwell Ultra,物料清单(BOM)中绝对和相对增长最大的部分来自额外的HBM内容——这使内存供应商(主要是SK海力士)受益。
在这里插入图片描述

这也与非内存I/O的需求相关。在单个内存一致性域(memory-coherent domain)内扩展更多GPU可提供更大的聚合内存容量和带宽。这使得能够推理更大参数量的模型,并支持在推理模型和复杂工作负载中日益普遍的更长上下文长度。

正如帕金森定律(Parkinson’s Law)所观察到的,工作会膨胀到填满所分配的时间,现代AI遵循一种“内存帕金森”(memory-Parkinson)动态,即神经网络架构会无情地增长以占据任何可用的HBM。HBM容量和吞吐量的每一次代际跃升——无论是在H100上的80GB/3TB/s,还是在GB200上的192GB/8TB/s——都迅速鼓励设计者增加参数数量、上下文长度和KVCache(键值缓存)占用空间,使仅在几个月前还看似充足的余量化为乌有。曾经为将模型压缩进紧张预算而部署的技术(激活检查点、优化器卸载、权重量化)一旦出现新的HBM空间就会被放松,直到再次触及内存墙并必须重新发现效率技巧。实际上,更大、更快的HBM的存在并不会产生持续的余裕;相反,它重置了“合理”模型大小的基线,确保尽管硅技术进步,容量和带宽仍然是限制因素。本质上,随着AI芯片获得更多HBM,开发者会立即构建更大的模型来填满它,因此内存总是下一个瓶颈。让我们来看看HBM是如何被使用的,以及压力点在哪里。

HBM在推理中的使用

在LLM(大语言模型)推理中,所有的模型权重都永久驻留在封装上的HBM内存中,以便GPU可以无延迟地获取它们。除了权重,HBM还保存着KV缓存(KVCache)。每次模型被要求生成下一个token(词元)时,GPU首先从HBM中读取权重,同时检索整个KV缓存,以便在自注意力(self-attention)阶段将新token与会话历史进行比较。计算完成后,GPU将新生成token的键(key)和值(value)追加回HBM中,从而扩大缓存。这对带宽要求非常高,因为每个token解码步骤都会重复读取静态权重和不断增长的KV缓存。如果内存带宽无法以每秒数太字节(terabytes per second)的速度移动这些数据,GPU等待内存的时间将超过执行计算的时间。现实中正是如此,因为带宽大大超过了token解码的计算强度,使得大多数LLM推理工作负载受限于内存带宽而非计算能力。随着模型的改进,它们的视野长度(horizon lengths)也在增加。这意味着模型能够思考、计划和行动更长的时间。这种增长速度是指数级的,并已在卓越的产品中显现。例如,OpenAI的Deep Research可以一次思考数十分钟,而GPT-4只能维持数十秒。

由于模型现在可以长时间思考和推理,对内存容量的压力呈爆炸式增长,因为上下文长度经常超过数十万个token。尽管最近的进展减少了每个token生成的KVCache量,内存限制仍然快速增长。应对方法之一是以较小的批量大小(batch size)服务推理模型,这对经济性有害。

AI进步的主要驱动力是强化学习(Reinforcement Learning, RL),而RL范式中很大一部分是推理。例如,RL通常需要满足严格要求的合成数据,这意味着需要进行价值许多GPU小时的推理来生成数据,然后由另一个模型进行过滤。另一个重推理负载的例子是用于难以验证的任务(如创意写作)的RL。与可以轻松检查和验证的代码不同,创意写作、法律工作和教学等内容无法轻易验证。解决这个问题从而获得强化和改进模型的信号的方法是让另一个模型来评判答案。这个作为评判者的LLM(LLM-as-a-judge)被赋予一个评分标准(目前是手写的,但很快将由LLM自动化),它使用该标准对答案进行评分。

KVCache 卸载

有各种算法或设置改进旨在减轻稀缺HBM的压力。一种技术是将KVCache卸载到更便宜且更易获得的内存层级,例如常规DDR甚至存储设备。如今,KVCache卸载已被普遍使用。英伟达为此提供了一个名为Dynamo Distributed KVCache Manager的框架。从概念上讲,这与通用CPU中可用的多级内存并无太大不同:速度极快但密度低的L1/L2/L3缓存,以及速度较慢但密度高的DRAM。在AI系统中,KV的存储位置是基于使用频率来管理的。优化良好的系统将所有当前使用的KV保留在HBM中,不常使用的KV放在DDR中,极少使用的KV放在NVMe中。

就像DRAM不会蚕食CPU对L1/L2/L3缓存的需求一样,HBM与DDR/SSD卸载并不直接竞争。事实上,对于大多数现代LLM工作负载,预填充速度(即产生KVCache的速率)通常慢于传输到DDR或NVMe SSD的速率,这意味着KV很少“完全驻留在HBM中”。它们被产生、逐出或发送到解码节点以用于生成下一个token。主要保留在HBM中的通常是每个用户都使用的系统提示(system prompt),以及其他热KV,如活动序列窗口(active sequence window)和一些预取缓冲区(prefetch buffers)。

至于使用DDR还是NVMe,这取决于工作负载需求和大小。它还取决于工作负载的循环频率,因为频繁循环的KV不适合写/改写耐受度有限的NAND。如今,使用工具调用(tool calling)以极低延迟和高循环率引入文档和数据的智能体(Agentic)用例进一步将缓存从NVMe推向DDR。这些都是架构和用户体验的权衡考虑,而非彼此的直接替代品。

随着用例的发展,不同的推理需求可能会使用不同的硬件设置。例如,查询固定代码库或文档将受益于每个GPU上为每个用户访问更大容量的KVCache,因为与正常聊天相比,这些用户行为的内存需求极高。

用于预训练(Pre-Training)的HBM

对于传统的预训练,GPU在每一次前向和后向传播(forward-and-backward step)中所需的一切都要经过HBM。首先,模型的权重存储在HBM中,以便每个层在处理一批数据的前向传播(forward pass)时能快速读取它们。当每一层处理该批次数据时,它将中间激活值(intermediate activations)写入HBM以便后续使用。一旦前向传播完成并计算出损失(loss),后向传播(backward pass)开始:GPU重新访问那些存储的激活值和权重,从HBM中读取它们以计算梯度(gradients)。产生的权重梯度,以及任何辅助的优化器统计量(例如Adam优化器中的动量或方差项),也会写入HBM。最后,优化器从HBM读取这些梯度和统计量来更新权重,为下一次迭代做好准备。然而,训练操作相对于数据传输需要更多的计算,这意味着训练更常受计算能力限制。但如上所述,RL现在对于提升模型能力至关重要——因此传统上通过预训练实现的目标,正变得越来越像以强化学习形式进行的推理。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐