芯片限频拖垮算力利用率？AI 数据中心运维该盯的 4 个液冷指标

进水温度 28℃，为什么算力还是跑不满？

weixin_46307566 · 2026-06-02 22:30:00 发布

进水温度 28℃，为什么算力还是跑不满？

2026 年 Q1，华南某智算园区两列 40kW 机柜做液冷 POC 终验时，现场反复出现同一个现象：CDU 出水、进水温差都正常，PUE 也达标，但 GPU 算力利用率长期在 70% 上下——不是业务没任务，是芯片在悄悄限频。

机柜功率从 20kW 往 40kW、80kW 走，单卡 TDP 也站上 1500W～2300W 区间。对数据中心运营来说，液冷项目真正要买的，从来不只是「机房更凉」，而是 稳定满血跑算力。下面这张表，比先争论「单相还是两相」更实用。

很多机房把液冷验收简化为三件事：进水温度 + 供回水温差 + 漏液监测。必要，但不够——它验的是环路，不是芯片。

常见误区是：把 CDU 面板上的「一切正常」等同于「GPU 满血」。实际上，热量从 die 到冷板、再到工质、CDU、室外机，任何一段热阻偏大，都可能让结温（Tj）顶到温控策略，平台开始降频。外表看机房很稳，里面算力已经打折。

下面这张对照，帮助运维和技术负责人对齐口径：

结论：液冷验收若只签字环路指标，很可能漏掉「算力账」。

单相液冷靠显热带走热量：温差 × 流量决定能带走多少热。下面几类情况，运维在 CDU 侧往往「看不出问题」：

① 尖峰暴热
训练与推理混跑、AllReduce 同步瞬间，die 上会出现短时热流密度远高于平均值。显热链路对这类尖峰响应慢，Tj 先冲高，再触发限频。

② 热阻链不完整
冷板与 die 之间 TIM、微通道设计、歧管分配不均，都会让「同一进水温度」对应不同的 Tj。换环路参数解决不了 die 侧瓶颈。

③ 混合散热边界
部分板卡、电源、网卡仍靠风冷，整机风道与液冷抢风；夏季或高 ambient 下，GPU 可用散热预算被压缩。

④ 监控口径误导
只盯「平均负载温度」或「CDU 设定值」，没有拉 BMC/带外的 throttle reason，会误以为系统健康。

所以：单相液冷不是不好，而是高功率段要更严地验芯片侧指标——这和 3 月那篇「ROI 对比」不是一回事，本篇只谈运行观测。

两相液冷（冷板式两相）在芯片热界面靠相变潜热吸热：工质在冷板内发生相变，吸收大量热而温升相对平缓，相当于在 die 附近多一层热缓冲池。

对运营方的含义，可以概括成四句（不谈站队，只谈现象）：

工程上，国内已有团队在冷板式两相路线做存量改造与 POC 交付（如冷泉能控等）。选型时仍建议按下面 4 项要实测数据范围，而不是只听方案介绍。

指标	看什么	合格参考（项目自定）	数据从哪来
① 限频时长	过去 30 天 GPU >90% TDP 且触发降频的累计小时	越少越好；业务峰期单列	BMC / 集群调度 / AIOps
② Tjmax 触顶次数	单卡结温接近或达到 Tjmax 的告警次数	尖峰负载下趋近 0	带外监控、厂商工具
③ 任务吞吐 vs 标称	同模型、同 batch 下 TFLOPS 或 token/s 与标称比	波动 <5%（示例）	业务压测 / benchmark
④ 峰值 PDU 功率	满负载时机柜 PDU 读数 vs 规划值	与①③交叉验证	列头表计 / 智能 PDU

用法建议：

验收方式	容易得出的结论	风险
只看环路 + PUE	「液冷成功，PUE 1.2x」	算力利用率仍 70%，限频被忽略
环路 + 上面 4 项	「满负载吞吐达标，限频可控」	才能真正对齐 AI 业务 KPI