本文回顾了谷歌在Hot Chips 2025大会上分享的数据中心液冷技术,重点关注其在应对AI时代高功耗和散热挑战中的应用、技术细节以及与PC发烧友领域的异同。

1. 液冷成为数据中心主流:AI热潮下的必然选择

  • 核心驱动力: 机器学习对功耗和散热的“永不满足”是液冷技术在数据中心普及的主要原因。随着最新芯片的功耗不断增加,传统风冷已无法满足散热需求。
  • 显著优势: “Google notes that water has a thermal conductivity about 4000 times that of air”,这使得水成为处理当前AI热潮相关散热需求的极具吸引力的解决方案。
  • 行业趋势: Hot Chips 2025大会上,液冷硬件随处可见。Nvidia展示了带有外部水冷连接的GB300服务器,Rebellions AI也展示了其ML加速器的水冷设置。这表明液冷技术已成为行业共识。

2. 谷歌液冷TPU的演进与核心技术

  • 发展历程: 谷歌从2018年开始进行液冷TPU的实验和迭代,并持续开发和改进其散热设计。
  • 数据中心规模设计: 谷歌的液冷解决方案是为数据中心规模设计的,液冷回路跨越整个机架,而非局限于单个服务器。“Their current liquid cooling solution is designed for datacenter scale, with liquid cooling loops spanning racks rather than being contained within servers.”
  • 冷却分配单元(CDU): 每个机架有六个CDU,功能类似于PC水冷系统中的散热器+泵组合。CDU通过柔性软管和快速断开接头来简化维护和降低公差要求。一个CDU机架只需五个CDU运行即可提供足够的冷却能力,允许在不中断服务的情况下对一个单元进行维护。
  • 热交换机制: CDU在冷却液和设施级供水之间进行热交换,两种液体不混合。冷却液从CDU流经歧管,分配到TPU服务器。
  • 串联回路设计与容量规划: TPU芯片在回路中串联连接,这意味着后续芯片将接收温度更高的冷却液。谷歌的冷却能力预算基于“last chip in each loop”的需求。
  • 性能优化:分流冷板(Split-flow cold plate): 谷歌发现分流冷板的性能优于传统的直通配置。
  • 裸片(Bare-die)设计: “TPUv4 switches to a bare-die setup compared to TPUv3’s lidded one.” 这与PC发烧友的“开盖”操作类似,旨在通过直接接触芯片裸片来提高传热效率,以应对TPUv4相比TPUv3高出1.6倍的功耗。

3. 液冷带来的能效优势与独特之处

  • 显著降低冷却功耗: “Google found the power consumption of liquid cooling pumps was less than 5% of fan power associated with an air cooling solution.” 这表明液冷在降低数据中心整体能耗方面具有巨大潜力。
  • 水-水热交换: 谷歌通过水-水热交换将热量从冷却液中带走,因此主要的冷却功耗来自水泵。这与PC发烧友的液冷设置不同,后者通常将热量传递到更适合风冷的位置(如带有风扇的散热器),因此无法实现同等的能效优势。

4. 维护与可靠性:规模化挑战与谷歌的解决方案

  • 共同挑战: 数据中心规模的液冷面临与PC发烧友相似的挑战,如微生物生长和泄漏风险。
  • 谷歌的规模化应对策略:冗余设计: 额外的CDU允许在不中断服务的情况下进行维护。
  • 严格验证: 谷歌对组件进行广泛的泄漏测试验证。
  • 预警系统: 使用报警系统及时发现泄漏等问题。
  • 预防性措施: 定期维护和过滤。
  • 标准化协议: 制定清晰的协议来响应警报和问题,确保庞大的员工队伍能够以一致的方式处理问题。“It’s a far cry from the ad-hoc measures enthusiasts take to maintain their water cooling setups.”

5. 数据中心液冷与PC发烧友领域的异同

  • 共同驱动力: 两者都因液冷卓越的传热效率而选择它。
  • 共同问题: 都面临类似的维护问题,如泄漏和生物生长。
  • 关键差异(由规模和可靠性驱动):系统规模: 数据中心液冷系统跨越整个机架,而PC液冷则局限于单个机器。
  • 冗余与可用性: 数据中心必须在不中断计算能力的情况下进行维护,而PC用户通常需要关机。
  • 维护流程: 数据中心有标准化的流程和工具,而PC发烧友的维护往往是临时性的。
  • 能效目标: 数据中心液冷显著降低整体冷却功耗,而PC液冷的主要目的是提高超频潜力或降低噪音,能耗节省不是主要考虑因素。

 

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐