【AI Infra】谷歌数据中心液冷技术：AI时代的散热革命

本文回顾了谷歌在Hot Chips 2025大会上分享的数据中心液冷技术，重点关注其在应对AI时代高功耗和散热挑战中的应用、技术细节以及与PC发烧友领域的异同。Nvidia展示了带有外部水冷连接的GB300服务器，Rebellions AI也展示了其ML加速器的水冷设置。这与PC发烧友的“开盖”操作类似，旨在通过直接接触芯片裸片来提高传热效率，以应对TPUv4相比TPUv3高出1.6倍的功耗。系统

带你去吃小豆花

982人浏览 · 2025-11-07 14:03:24

带你去吃小豆花 · 2025-11-07 14:03:24 发布

本文回顾了谷歌在Hot Chips 2025大会上分享的数据中心液冷技术，重点关注其在应对AI时代高功耗和散热挑战中的应用、技术细节以及与PC发烧友领域的异同。

1. 液冷成为数据中心主流：AI热潮下的必然选择

核心驱动力： 机器学习对功耗和散热的“永不满足”是液冷技术在数据中心普及的主要原因。随着最新芯片的功耗不断增加，传统风冷已无法满足散热需求。
显著优势： “Google notes that water has a thermal conductivity about 4000 times that of air”，这使得水成为处理当前AI热潮相关散热需求的极具吸引力的解决方案。
行业趋势： Hot Chips 2025大会上，液冷硬件随处可见。Nvidia展示了带有外部水冷连接的GB300服务器，Rebellions AI也展示了其ML加速器的水冷设置。这表明液冷技术已成为行业共识。

2. 谷歌液冷TPU的演进与核心技术

发展历程： 谷歌从2018年开始进行液冷TPU的实验和迭代，并持续开发和改进其散热设计。
数据中心规模设计： 谷歌的液冷解决方案是为数据中心规模设计的，液冷回路跨越整个机架，而非局限于单个服务器。“Their current liquid cooling solution is designed for datacenter scale, with liquid cooling loops spanning racks rather than being contained within servers.”
冷却分配单元（CDU）： 每个机架有六个CDU，功能类似于PC水冷系统中的散热器+泵组合。CDU通过柔性软管和快速断开接头来简化维护和降低公差要求。一个CDU机架只需五个CDU运行即可提供足够的冷却能力，允许在不中断服务的情况下对一个单元进行维护。
热交换机制： CDU在冷却液和设施级供水之间进行热交换，两种液体不混合。冷却液从CDU流经歧管，分配到TPU服务器。
串联回路设计与容量规划： TPU芯片在回路中串联连接，这意味着后续芯片将接收温度更高的冷却液。谷歌的冷却能力预算基于“last chip in each loop”的需求。
性能优化：分流冷板（Split-flow cold plate）： 谷歌发现分流冷板的性能优于传统的直通配置。
裸片（Bare-die）设计： “TPUv4 switches to a bare-die setup compared to TPUv3’s lidded one.” 这与PC发烧友的“开盖”操作类似，旨在通过直接接触芯片裸片来提高传热效率，以应对TPUv4相比TPUv3高出1.6倍的功耗。

3. 液冷带来的能效优势与独特之处

显著降低冷却功耗： “Google found the power consumption of liquid cooling pumps was less than 5% of fan power associated with an air cooling solution.” 这表明液冷在降低数据中心整体能耗方面具有巨大潜力。
水-水热交换： 谷歌通过水-水热交换将热量从冷却液中带走，因此主要的冷却功耗来自水泵。这与PC发烧友的液冷设置不同，后者通常将热量传递到更适合风冷的位置（如带有风扇的散热器），因此无法实现同等的能效优势。

4. 维护与可靠性：规模化挑战与谷歌的解决方案

共同挑战： 数据中心规模的液冷面临与PC发烧友相似的挑战，如微生物生长和泄漏风险。
谷歌的规模化应对策略：冗余设计： 额外的CDU允许在不中断服务的情况下进行维护。
严格验证： 谷歌对组件进行广泛的泄漏测试验证。
预警系统： 使用报警系统及时发现泄漏等问题。
预防性措施： 定期维护和过滤。
标准化协议： 制定清晰的协议来响应警报和问题，确保庞大的员工队伍能够以一致的方式处理问题。“It’s a far cry from the ad-hoc measures enthusiasts take to maintain their water cooling setups.”

5. 数据中心液冷与PC发烧友领域的异同

共同驱动力： 两者都因液冷卓越的传热效率而选择它。
共同问题： 都面临类似的维护问题，如泄漏和生物生长。
关键差异（由规模和可靠性驱动）：系统规模：数据中心液冷系统跨越整个机架，而PC液冷则局限于单个机器。
冗余与可用性： 数据中心必须在不中断计算能力的情况下进行维护，而PC用户通常需要关机。
维护流程： 数据中心有标准化的流程和工具，而PC发烧友的维护往往是临时性的。
能效目标： 数据中心液冷显著降低整体冷却功耗，而PC液冷的主要目的是提高超频潜力或降低噪音，能耗节省不是主要考虑因素。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

《基于 FastAPI + LangGraph + LLM 大语言模型的通用 Agent 多智能体系统架构设计与开发实战、产业应用》

"""执行智能体任务，更新状态"""prompt = f"作为self . llm = llm async def execute(self , state : AgentState) - > AgentState : """执行智能体任务，更新状态""" prompt = f"作为 {self . role . value } ，当前状态: {