摘要:随着AI大模型训练对算力需求的爆发式增长,GPU功耗突破700W大关,传统风冷散热已逼近物理极限。本文从散热效率、技术原理、成本分析、典型应用场景等维度,深度解析冷板式、浸没式、喷淋式三种液冷技术,并结合NVIDIA H100/B200参考设计,量化液冷在PUE优化、能效提升方面的实际收益,为数据中心液冷改造提供技术方案参考。

1. 引言:算力爆发下的散热危机

2024-2026年,AI大模型参数规模从千亿跃升至万亿级,单次训练任务功耗突破10 MW·h。以NVIDIA H100 SXM为例,TDP达700W;下一代B200更是飙升至1000W。传统风冷的理论散热上限约为30-40 W/cm²,而H100 GPU核心热流密度已突破80 W/cm²,风冷彻底无法满足。

---------

-----------------

---------

----------

风冷(High-Airflow)

10-40

通用服务器、<350W CPU

1.5-1.8

冷板式液冷(Cold Plate)

100-300

高功耗CPU/GPU,>500W

1.2-1.4

浸没式液冷(Single-Phase)

300-800

超高密度机柜,AI集群

1.05-1.15

浸没式液冷(Two-Phase)

500-1500

极端密度,HPC超算

1.02-1.08

喷淋式液冷(Spray)

200-600

新兴方案,局部热点

1.1-1.3

数据来源:Uptime Institute 2024 Global Data Center Survey;ASHRAE TC 9.9 Technical Committee Report (2024)

2. 散热技术演进:从风冷到液冷的技术跃迁

2.1 风冷的瓶颈

传统风冷依赖 heatsink + 高速风扇,散热能力受限于:

空气导热系数低(0.026 W/m·K),仅为水的1/25

芯片功率密度年增30%+,风冷换热器体积呈指数增长

噪音问题:高转速风扇导致机房噪音>85 dB(A)

能耗占比:风冷系统自身功耗占IT设备功耗的15-25%

2.2 液冷的技术优势

液冷(Liquid Cooling)利用液体的高比热容(水的比热容是空气的4倍)和优异导热性能,实现:

散热效率提升5-10倍

PUE从1.5降至1.1以下

支持单机柜功率密度突破50 kW

3. 三种液冷技术详解

3.1 冷板式液冷(Cold Plate Liquid Cooling)

原理

冷板式液冷属于间接液冷。液体不直接接触发热元件,而是通过金属冷板(通常为铜或铝)贴合芯片表面,热量经冷板传导至内部流道中的冷却液,再经由快速接头(Quick Disconnect, QD)和歧管(Manifold)排出机柜。

GPU Die → TIM(导热界面材料)→ Cold Plate → 冷却液 → CDU → 外部换热

核心组件清单

------

---------

------

冷板(Cold Plate)

铜/铝,流道宽度0.5-1mm

需定制化设计

快速接头(QD)

额定流量5-15 L/min,漏液率<0.1%

关键安全部件

歧管(Manifold)

不锈钢/工程塑料,支持12-48 V直流泵

分配冷却液

CDU(Cooling Distribution Unit)

换热功率30-120 kW,Pump冗余N+1

系统核心

冷却液

去离子水 + 乙二醇(25%体积比)

防冻、防腐

适用场景

风液混合改造:保留机箱风扇,仅GPU/CPU液冷

成本敏感型:改造费用约为浸没式的1/3

标准机柜兼容:无需更换机柜,适配19英寸标准机架

成本分析(以单机柜为例)

------

-----------

------

冷板+QD接头

25,000-40,000

45%

CDU单元

20,000-35,000

35%

管路+安装

8,000-15,000

15%

其他辅材

3,000-5,000

5%

**合计**

**56,000-95,000**

100%

投资回收期:PUE从1.6降至1.25,电费节省约**18个月**回本(按0.8元/kWh,年运行PUE差异0.35计算)

3.2 浸没式液冷(Immersion Cooling)

原理

浸没式液冷属于直接液冷。将整个服务器主板(含GPU、CPU、内存、供电模块)完全浸没于绝缘冷却液中,热量直接传递给液体,通过自然对流或泵驱动循环实现散热。

分为两种技术路线:

单相浸没式(Single-Phase)

冷却液在运行过程中不发生相变

典型冷却液:矿物油、合成油、氟碳液体(3M Novec、Solvay Galden)

工作温度:40-65°C

两相浸没式(Two-Phase)

冷却液在芯片表面沸腾汽化,蒸气在冷凝管上重新液化

典型冷却液:3M Novec 7000系列(沸点34-60°C)

散热效率极高,但冷却液成本昂贵(>5000元/L)

冷却液类型对

-----------

-----------------

----------

-----------

--------

矿物油

0.135

>200(不沸腾)

50-100

一般(难降解)

合成油(酯类)

0.145

>300

150-300

较好(可生物降解)

氟碳液体(3M Novec 7100)

0.086

61

3000-5000

优秀(零ODP/GWP)

氟碳液体(Solvay Galden HT-170)

0.092

170

2000-4000

优秀

维护要点

冷却液定期检测:每半年检测酸值、水分含量、颗粒物

防止污染:严禁水分进入(含水量>500 ppm会导致介电强度下降50%)

QD接头维护:每次开盖检查快接接头密封性

过滤系统:冷却液循环回路需配置5 μm精密过滤器

安全防护:操作时佩戴防化手套,避免皮肤长期接触氟碳液体

典型部署架

浸没槽(Tank) → CDU(外循环换热)→ 干冷器/冷却塔 → 室外散热
                   ↑
              冷却液循环泵(冗余)

3.3 喷淋式液冷(Spray Cooling)

原理

喷淋式液冷是一种新兴局部液冷技术。通过精密喷嘴将冷却液雾化后直接喷射到芯片表面的微结构上,利用液体汽化潜热实现高效散热。

喷嘴阵列 → 雾化冷却液 → 芯片表面 → 蒸气回收 → 冷凝 → 循环

技术特点

定点冷却:仅冷却高功耗芯片,其余元件仍用风冷

冷却液消耗低:闭环系统,冷却液损失<1%/年

热流密度极高:理论可达1500 W/cm²,适合芯片局部热点

技术成熟度:目前处于小规模商用阶段(2024年仅少数超算中心部署)

挑战

喷嘴堵塞风险(需超纯冷却液 + 多级过滤)

系统复杂度高(喷嘴阵列控制、雾化均匀性)

成本尚未规模化下降

4. NVIDIA H100/B200 液冷方案对比

NVIDIA在H100架构中首次大规模推广液冷参考设计,B200进一步标准化液冷接口。

4.1 H100 液冷方案(NVIDIA Reference Design)

------

------------------

------------------

TDP

700W

700W

散热方式

主动风冷 +  heatsink

冷板式液冷(直接GPU核心)

散热效率

35 W/cm²

180 W/cm²

进液温度

-

40-45°C(支持高温冷却水)

流量需求

-

8-12 L/min per GPU

快接接头

-

标准NVIDIA QD,12mm内径

机柜密度

最大25 kW

最大50 kW

4.2 B200 液冷方案(NVIDIA Blackwell Architecture)

B200采用了全液冷设计(风冷版本仅限低功耗SKU):

------

--------------

TDP

1000W

散热方式

冷板式液冷(GPU + HBM3e统一冷板)

散热效率

250 W/cm²

液冷接口

标准化UQD(Universal Quick Disconnect)

CDU要求

单GPU换热能力≥1.2 kW

冷却液温度

入口45°C,出口≤55°C

维护设计

热插拔泵模块,无需排液即可更换

**关键升级**:B200的液冷冷板集成了**HBM3e显存散热**,而H100仅冷却GPU核心,显存仍依赖风冷辅助。

4.3 实际部署案例(某互联网大厂AI训练集群)

规模:1024 × H100(液冷版)

液冷方案:冷板式 + 集中式CDU(4×120 kW CDU,N+1冗余)

PUE:1.12(全年平均)

对比风冷方案:PUE从1.58降至1.12,年节电约2100万kWh

5. 节能效果量化:PUE从1.5降到1.1

5.1 PUE计算公式

PUE (Power Usage Effectiveness) = 数据中心总能耗 / IT设备能耗

PUE = 1.0:理想值(无额外损耗)

PUE = 1.5:传统风冷典型值

PUE = 1.1:液冷可实现值

5.2 节能收益计算

假设某AI训练中心:

IT设备功耗:2 MW

年运行时间:8760 h

电价:0.8 元/kWh

------

-----

-----------

--------------

-------------

风冷

1.50

3.0

2628

2102

液冷

1.10

2.2

1927

1542

**差异**

-

**-0.8 MW**

**-701万kWh**

**-560万元/年**

**结论**:2 MW级AI集群,液冷改造年节省电费**560万元**,减少碳排放约**5600吨CO₂/年**。

5.3 投资回收期分析

------

------------

液冷改造初投资(2 MW集群)

650

年节电收益

560

**投资回收期**

**13.9个月**

注:若考虑**碳交易收益**(按80元/吨CO₂),回收期可缩短至**11.5个月**。

6. 液冷系统维护指南

液冷系统的高可靠性依赖于规范化维护。以下是基于ASHRAE TC 9.9和OCP(Open Compute Project)液冷工作组建议的检查清单。

6.1 CDU(Cooling Distribution Unit)维护检查清单

---------

---------

----------

---------

每日

CDU运行状态指示灯

绿色正常

红色/黄色→排查报警代码

每周

冷却液流量

设计值±10%

<90%设计值→检查泵/过滤器

每月

冷却液温度(进/出)

进液40-45°C,ΔT≤10°C

ΔT>15°C→检查冷板堵塞

每季度

泵组运行记录

运行时长均衡(冗余泵)

偏差>20%→调整轮换策略

每半年

冷却液电导率

<10 μS/cm

>10→更换冷却液/除离子

6.2 歧管(Manifold)与快接接头(QD)维护

---------

---------

----------

---------

每月

QD接头漏液检查

目视无渗漏

发现渗漏→更换QD(扭矩20-25 N·m)

每季度

歧管内压力

设计值±5%

压力异常→检查泵或管路堵塞

每半年

QD接头插拔力

40-60 N

>80 N→清洁/更换

6.3 冷却液质量管理

冷却液关键指标(去离子水+乙二醇方案):
- pH值:7.0-9.0
- 电导率:<10 μS/cm
- 含水量(对氟碳液):<500 ppm
- 颗粒物:<50 ppm(>5 μm)
- 乙二醇浓度:20-30%(防冻+防腐)

6.4 温度监控命令(NVIDIA GPU)

# 查看所有GPU温度(核心 + 显存 + 供电)
nvidia-smi -q | grep Temperature

# 输出示例:
# Temperature
#     GPU Current Temp: 65 C
#     GPU Shutdown Temp: 100 C
#     GPU Slowdown Temp: 97 C
#     GPU Memory Current Temp: 58 C
#     GPU Memory Max Operating Temp: 95 C

# 实时监控(每2秒刷新)
nvidia-smi --query-gpu=index,temperature.gpu,power.draw --format=csv -l 2

# 液冷系统报警阈值建议:
# - GPU核心温度 > 85°C → 立即告警
# - GPU核心温度 > 90°C → 自动降频
# - 进出液温差 > 15°C → 检查冷板/流量

7. 2026年液冷市场规模预测

根据IDC《2024-2026全球数据中心液冷市场预测报告》和中国信通院《数据中心液冷技术发展研究报告(2024)》:

7.1 全球市场

------

----------------

---------

----------

2023

28.5

-

8.2%

2024

42.3

48.4%

12.5%

2025

63.8

50.8%

18.7%

**2026(预测)**

**96.5**

**51.3%**

**27.3%**

7.2 中国市场

2026年中国液冷市场规模预计达到245亿元人民币

AI算力中心液冷渗透率将突破35%

冷板式液冷占据68%市场份额(成本优势)

浸没式液冷增速最快(CAGR > 60%)

7.3 驱动因素

政策推动:中国"东数西算"工程要求新建数据中心PUE≤1.25

算力需求:NVIDIA B200/GB200量产,单机柜功率突破100 kW

成本下降:冷却液国产化(巨化股份、东岳集团)推动成本下降30%+

标准化:OCP、ODCC液冷标准逐步统一,降低部署门槛

8. 总结与技术展望

液冷散热已从"可选方案"变为AI算力中心的"必选项"。技术路线上:

短期(2024-2026):冷板式液冷为主流(改造成本低、标准化程度高)

中期(2027-2029):浸没式液冷在超大规模集群中占比提升(PUE优势明显)

长期(2030+):喷淋式/微通道液冷可能颠覆现有技术路线

关键建议:

新建AI数据中心优先采用全液冷设计(PUE可控制在1.1以下)

存量风冷数据中心可分阶段改造,优先对GPU节点实施冷板式液冷

选择液冷方案时,优先参考OCP/NVIDIA参考设计,确保兼容性

品牌推荐

维核智算(whgpu.com) —— 液冷GPU维修专家

如果您的H100/B200液冷模块出现故障,或者需要液冷系统维护支持,欢迎联系维核智算:

专业维修NVIDIA H100/B200液冷模块

提供液冷系统故障诊断、冷却液更换、CDU维护一站式服务

7×24小时技术支持,保障AI训练任务不中断

�� 官网:whgpu.com

�� 联系:专业团队为您提供液冷GPU全生命周期服务

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐