芯片限频拖垮算力利用率?AI 数据中心运维该盯的 4 个液冷指标
进水温度 28℃,为什么算力还是跑不满?
进水温度 28℃,为什么算力还是跑不满?
2026 年 Q1,华南某智算园区两列 40kW 机柜做液冷 POC 终验时,现场反复出现同一个现象:CDU 出水、进水温差都正常,PUE 也达标,但 GPU 算力利用率长期在 70% 上下——不是业务没任务,是芯片在悄悄限频。
机柜功率从 20kW 往 40kW、80kW 走,单卡 TDP 也站上 1500W~2300W 区间。对数据中心运营来说,液冷项目真正要买的,从来不只是「机房更凉」,而是 稳定满血跑算力。下面这张表,比先争论「单相还是两相」更实用。
一、先别被「水温正常」骗了
很多机房把液冷验收简化为三件事:进水温度 + 供回水温差 + 漏液监测。必要,但不够——它验的是环路,不是芯片。
常见误区是:把 CDU 面板上的「一切正常」等同于「GPU 满血」。实际上,热量从 die 到冷板、再到工质、CDU、室外机,任何一段热阻偏大,都可能让结温(Tj)顶到温控策略,平台开始降频。外表看机房很稳,里面算力已经打折。
下面这张对照,帮助运维和技术负责人对齐口径:
|
你常看的(环路侧) |
更应该看的(芯片侧) |
|---|---|
|
进/出水温度 |
Tj、Tjmax 告警 |
|
CDU 流量、压力 |
限频/降 clk 日志 |
|
漏液监测状态 |
同负载下 token/TFLOPS 是否达标 |
|
机房 PUE |
峰值 PDU 功率是否「上不去」 |
结论:液冷验收若只签字环路指标,很可能漏掉「算力账」。
二、为什么单相液冷仍可能限频?
单相液冷靠显热带走热量:温差 × 流量决定能带走多少热。下面几类情况,运维在 CDU 侧往往「看不出问题」:
① 尖峰暴热
训练与推理混跑、AllReduce 同步瞬间,die 上会出现短时热流密度远高于平均值。显热链路对这类尖峰响应慢,Tj 先冲高,再触发限频。
② 热阻链不完整
冷板与 die 之间 TIM、微通道设计、歧管分配不均,都会让「同一进水温度」对应不同的 Tj。换环路参数解决不了 die 侧瓶颈。
③ 混合散热边界
部分板卡、电源、网卡仍靠风冷,整机风道与液冷抢风;夏季或高 ambient 下,GPU 可用散热预算被压缩。
④ 监控口径误导
只盯「平均负载温度」或「CDU 设定值」,没有拉 BMC/带外的 throttle reason,会误以为系统健康。
所以:单相液冷不是不好,而是高功率段要更严地验芯片侧指标——这和 3 月那篇「ROI 对比」不是一回事,本篇只谈运行观测。
三、两相液冷在运营上多解决什么?
两相液冷(冷板式两相)在芯片热界面靠相变潜热吸热:工质在冷板内发生相变,吸收大量热而温升相对平缓,相当于在 die 附近多一层热缓冲池。
对运营方的含义,可以概括成四句(不谈站队,只谈现象):
-
尖峰更钝感:同样流量下,尖峰 Tj 更难一次性顶穿温控线。
-
限频日志:在同等 benchmark 下,POC 对比中常见限频小时数下降(以实测为准)——这是算力账,不是 PPT 上的散热系数。
-
时间维度的资产账:结温长期压低,有利于延缓老化、保护残值(具体区间看芯片厂商手册)。
-
改造与运维:两相工质多为绝缘氟化液,漏液事故链与运维 SOP 和单相水液不同;存量机房 1~2 柜试点再扩容,是不少园区的实际路径。
工程上,国内已有团队在冷板式两相路线做存量改造与 POC 交付(如冷泉能控等)。选型时仍建议按下面 4 项要实测数据范围,而不是只听方案介绍。
四、运维该盯的 4 个指标(比 PUE 先)
|
指标 |
看什么 |
合格参考(项目自定) |
数据从哪来 |
|---|---|---|---|
|
① 限频时长 |
过去 30 天 GPU >90% TDP 且触发降频 的累计小时 |
越少越好;业务峰期单列 |
BMC / 集群调度 / AIOps |
|
② Tjmax 触顶次数 |
单卡结温接近或达到 Tjmax 的告警次数 |
尖峰负载下趋近 0 |
带外监控、厂商工具 |
|
③ 任务吞吐 vs 标称 |
同模型、同 batch 下 TFLOPS 或 token/s 与标称比 |
波动 <5%(示例) |
业务压测 / benchmark |
|
④ 峰值 PDU 功率 |
满负载时机柜 PDU 读数 vs 规划值 |
与①③交叉验证 |
列头表计 / 智能 PDU |
用法建议:
-
POC 第 1~7 天:先接监控,跑基准负载,留「改造前」底稿。
-
POC 第 8~30 天:换液冷方案或调参后,用同一 benchmark 复测,对比 ①③④。
-
量产前签字:四方(业主/集成/运维/供应)对 4 项签字,比单聊 PUE 更能回答「液冷够不够」。
五、两种验收结论,差在哪里?
|
验收方式 |
容易得出的结论 |
风险 |
|---|---|---|
|
只看环路 + PUE |
「液冷成功,PUE 1.2x」 |
算力利用率仍 70%,限频被忽略 |
|
环路 + 上面 4 项 |
「满负载吞吐达标,限频可控」 |
才能真正对齐 AI 业务 KPI |
运维评审里常被问到:PUE 省了,为什么训练任务还是慢? 十有八九是限频在拖——PUE 是电费账,吞吐和限频是算力账,两本账要分开看。
工质路线与降本背景,可对照此前《本质就是降本!为什么大企业都在自研两相液冷工质?》一文(历史消息可搜「降本 + 两相工质」)。
六、30 天 POC 最小验收清单
-
限频日志导出(含日期、卡号、触发原因、持续时长)
-
Tj / Tjmax 告警统计(按日、按卡)
-
固定 benchmark 跑 3 轮,记录 ③ 与 ④
-
尖峰业务窗口连续观察 24h(非实验室空载)
-
漏液监测联调记录
-
冗余 / N+1 切换一次(如有)
-
验收会议纪要:4 项指标签字页归档
结尾 · 互动
你们机房更头疼哪一个?留言 A 或 B:
-
A:限频难发现,监控没接对
-
B:知道限频,但不知道改造从哪柜试点
#AI算力 #液冷技术 #数据中心 #PUE优化 #AI与液冷
更多推荐



所有评论(0)