政策+实测双锤落地!CPO+液冷协同技术,如何破解数据中心“发烧”难题?

刚过去的12月15-16日,数据中心圈迎来两场“重磅惊雷”:15日,工信部《新型数据中心建设指南(2025版)》征求意见稿流出,首次将“CPO光互联”与“原生液冷”列为关键推荐技术,明确2026年新建大型数据中心PUE需≤1.15;紧接着16日光迅科技公布实测数据,其800G CPO光引擎搭配液冷方案,功耗直接下降42%,散热片温度骤降18℃。

这可不是简单的技术叠加,而是给“高烧不退”的数据中心开出了“根治药方”。随着AI大模型训练、卫星互联网数据处理等算力需求爆发,数据中心单柜功率密度从传统的5kW飙升至65kW,传统风冷+可插拔光模块方案早已扛不住——不仅PUE(能源使用效率)居高不下,还频繁出现因过热导致的算力中断。今天我们就聚焦“CPO+液冷协同技术”这个核心知识点,从政策要求、技术原理、企业实测、落地逻辑到行业变革,用通俗的语言+硬核解析,带你看懂这场数据中心的“降温革命”。

一、热点背景:数据中心“发烧”逼宫,政策+技术双轮驱动变革

在聊CPO+液冷之前,我们先搞懂一个关键问题:为什么这两项技术会被工信部“钦点”为核心推荐技术?答案很直白:数据中心的能耗和散热已经到了“不改革就崩盘”的地步。

随着GPT-5、DeepSeek-R1等大模型规模化应用,全球数据中心的电力消耗以每年15%的速度增长。国际能源署统计,2025年全球数据中心耗电已占全球总电量的4.5%,其中超大型数据中心30%的电力都用来给设备降温——相当于一个中等城市的年用电量。更要命的是,传统风冷方案在高功率密度场景下完全失效,当单柜功率突破30kW时,风冷的PUE会飙升至1.8以上(PUE越接近1越节能),既不经济也不环保。

正是在这种背景下,工信部的新指南和企业的技术实测形成了“政策引导+技术落地”的闭环。下面这张表,清晰呈现了传统方案的痛点、新政策要求以及CPO+液冷的解决方案,帮你快速理清逻辑:

对比维度 传统方案(风冷+可插拔光模块) 新政策要求(2026年实施) CPO+液冷协同方案
单柜功率密度 ≤15kW,难以支撑AI大算力需求 鼓励新建数据中心单柜功率≥30kW 可支持65kW以上,中兴试点已达65kW
PUE(能源使用效率) 高功率场景下≥1.8,能耗浪费严重 新建大型/超大型数据中心≤1.15 中兴试点PUE低至1.08,远超政策要求
光互联功耗占比 约25%-30%,是主要能耗源之一 光互联功耗占比需低于10% 光迅科技实测占比降至8%,功耗下降42%
散热效果 高功率下散热不均,设备易过热宕机 无明确指标,但需保障设备稳定运行 散热片温度降低18℃,设备连续72小时满载无宕机
简单说,传统方案已经跟不上算力增长的节奏,而CPO+液冷协同技术,正是同时解决“高功率密度支撑”和“低能耗散热”两大核心痛点的最优解。政策的落地,更是把这项技术从“企业可选”变成了“行业标配”,数据中心的“降温革命”已经箭在弦上。

二、核心深挖:CPO+液冷协同的底层技术逻辑,1+1为何大于2?

很多人会疑惑:CPO和液冷明明是两项独立技术,为什么放在一起就能产生“1+1>2”的效果?答案藏在数据中心的“能耗分布”里:数据中心的能耗主要来自三部分——计算芯片(GPU/CPU)占40%,光互联模块占30%,其他设备占30%。液冷解决计算芯片的散热问题,CPO解决光互联的功耗问题,两者协同才能实现全链路节能。

下面我们分别拆解两项技术的核心原理,再分析它们的协同逻辑——这部分是本次深挖的重点,看懂它就看懂了新型数据中心的技术核心。

1. 先搞懂CPO:把光模块“焊”在交换机上,省掉30%能耗

CPO的全称是“Co-packaged Optics”,中文叫“共封装光学”。传统的数据中心光互联方案,是把光模块做成可插拔的“独立部件”,通过线缆连接交换机芯片。这种方案有两个致命缺点:一是光模块和芯片之间的电信号传输会产生大量损耗,导致功耗升高;二是可插拔结构本身有接触电阻,进一步增加能耗。

而CPO技术,是把光模块直接和交换机芯片“封装在一起”,相当于把光模块“焊死”在交换机上,彻底取消了可插拔结构和连接线缆。这样做有两个核心优势:

  • 降低传输损耗:光模块和芯片之间的距离从“米级”缩短到“毫米级”,电信号传输损耗降低80%,对应的功耗自然大幅下降。光迅科技的实测数据显示,800G CPO光引擎比传统可插拔方案功耗下降42%,就是这个原因。

  • 提升带宽密度:封装在一起后,光模块的端口密度能大幅提升,一台交换机可支持64个800G端口,满足AI训练的高带宽需求。

这里要注意一个关键误区:CPO不是“不可维护”。很多人担心光模块焊死在交换机上,坏了之后要整台更换,成本太高。但实际上,CPO方案采用“模块化封装”,坏了之后可以更换整个光学模块,无需更换交换机芯片,维护成本和传统方案基本持平。

2. 再搞懂液冷:用液体直接给芯片“洗澡”,散热效率是风冷的100倍

液冷的核心逻辑很简单:用液体(通常是绝缘的矿物油或乙二醇溶液)代替空气,直接接触发热设备(GPU/CPU、交换机),通过液体的流动带走热量。和传统风冷相比,液冷的散热效率是风冷的100倍,而且能在高功率密度场景下保持稳定。

液冷主要分为两种方案,各有适用场景:

  • 冷板式液冷:在芯片表面贴一块“冷板”,冷板内部有液体流动的通道,通过冷板吸收芯片热量。这种方案改造难度低,适合单柜功率30-50kW的场景,是目前企业的主流选择。

  • 浸没式液冷:把整个服务器浸泡在绝缘液体里,液体直接吸收所有设备的热量。这种方案散热效率最高,适合单柜功率50kW以上的场景,但改造成本高,适合新建超大型数据中心。

中兴通讯在深圳的试点项目采用的是冷板式液冷,单柜功率密度提升到65kW,PUE低至1.08,证明冷板式液冷完全能满足政策要求的高功率密度场景。

3. 协同逻辑:CPO降低光模块发热,液冷提升CPO可靠性,形成闭环

CPO和液冷的协同,核心是“相互赋能”:一方面,CPO降低了光模块的发热,减少了液冷系统的散热压力;另一方面,液冷系统能精准控制温度,提升CPO模块的可靠性——因为光模块对温度非常敏感,温度每升高10℃,寿命就会缩短一半。

举个具体的例子:在传统方案中,64端口800G交换机的光模块总功耗约为2400W,会产生大量热量,这些热量需要风冷系统额外消耗电力来散热;而采用CPO方案后,光模块总功耗降至1392W(下降42%),液冷系统的散热负荷直接减少1008W,对应的液冷泵、换热器等设备的功耗也会降低15%左右。同时,液冷系统把交换机温度控制在25-30℃,让CPO模块的寿命提升3倍,进一步降低运维成本。

硬核实战:CPO+液冷协同的智能温控系统伪代码

CPO+液冷协同的核心是“智能温控”——根据光模块和芯片的实时温度,动态调整液冷流量和温度,实现精准节能。下面给出智能温控系统的核心伪代码,模拟实际数据中心的控制逻辑:


class CPOLiquidCoolingController:
    def __init__(self):
        """初始化CPO+液冷协同控制器"""
        # 温度阈值:CPO模块最佳温度25-30℃,CPU最佳温度30-35℃
        self.cpo_temp_range = (25, 30)
        self.cpu_temp_range = (30, 35)
        # 液冷系统初始参数
        self.coolant_flow_rate = 5.0  # 冷却液流量(L/min)
        self.coolant_set_temp = 22.0  # 冷却液设定温度(℃)
        # 实时监测数据
        self.real_time_data = {
            "cpo_temp": 0.0,
            "cpu_temp": 0.0,
            "coolant_in_temp": 0.0,
            "coolant_out_temp": 0.0,
            "power_consumption": 0.0  # 实时功耗(kW)
        }
    
    def collect_real_time_data(self):
        """采集实时监测数据(模拟传感器数据输入)"""
        # 实际场景中,数据来自温度传感器、功率传感器
        self.real_time_data["cpo_temp"] = self._simulate_cpo_temp()
        self.real_time_data["cpu_temp"] = self._simulate_cpu_temp()
        self.real_time_data["coolant_in_temp"] = self.coolant_set_temp
        self.real_time_data["coolant_out_temp"] = self.coolant_set_temp + (self.real_time_data["power_consumption"] * 0.05)
        print(f"实时监测数据:CPO温度{self.real_time_data['cpo_temp']:.1f}℃,CPU温度{self.real_time_data['cpu_temp']:.1f}℃")
    
    def _simulate_cpo_temp(self):
        """模拟CPO模块温度(与功耗正相关)"""
        return 25 + (self.real_time_data["power_consumption"] * 0.1)
    
    def _simulate_cpu_temp(self):
        """模拟CPU温度(与功耗、液冷流量正相关)"""
        return 30 + (self.real_time_data["power_consumption"] * 0.08) - (self.coolant_flow_rate * 0.5)
    
    def adjust_cooling_system(self):
        """根据实时温度调整液冷系统参数"""
        # 1. 优先保障CPO模块温度在最佳范围
        if self.real_time_data["cpo_temp"] > self.cpo_temp_range[1]:
            # CPO温度过高,降低冷却液设定温度0.5℃
            self.coolant_set_temp -= 0.5
            print(f"CPO温度过高,调整冷却液设定温度至{self.coolant_set_temp:.1f}℃")
        elif self.real_time_data["cpo_temp"] < self.cpo_temp_range[0]:
            # CPO温度过低,升高冷却液设定温度0.5℃(节能)
            self.coolant_set_temp += 0.5
            print(f"CPO温度过低,调整冷却液设定温度至{self.coolant_set_temp:.1f}℃")
        
        # 2. 调整CPU温度,通过改变流量实现
        if self.real_time_data["cpu_temp"] > self.cpu_temp_range[1]:
            # CPU温度过高,增加冷却液流量0.3 L/min
            self.coolant_flow_rate += 0.3
            print(f"CPU温度过高,调整冷却液流量至{self.coolant_flow_rate:.1f}L/min")
        elif self.real_time_data["cpu_temp"] < self.cpu_temp_range[0]:
            # CPU温度过低,减少冷却液流量0.3 L/min(节能)
            self.coolant_flow_rate -= 0.3
            print(f"CPU温度过低,调整冷却液流量至{self.coolant_flow_rate:.1f}L/min")
        
        # 3. 流量和温度限制(避免系统故障)
        self.coolant_flow_rate = max(3.0, min(8.0, self.coolant_flow_rate))  # 流量范围3-8 L/min
        self.coolant_set_temp = max(18.0, min(28.0, self.coolant_set_temp))  # 温度范围18-28℃
    
    def calculate_energy_saving(self, traditional_pue=1.8, current_pue=1.08):
        """计算节能效果(基于PUE对比)"""
        # 假设数据中心总功耗1000kW,运行时间8760小时
        traditional_energy = 1000 * traditional_pue * 8760
        current_energy = 1000 * current_pue * 8760
        energy_saving = traditional_energy - current_energy
        cost_saving = energy_saving * 0.8  # 电价0.8元/kWh
        print(f"年节能:{energy_saving/1000:.0f}MWh,年节省成本:{cost_saving/10000:.0f}万元")
        return {"energy_saving": energy_saving, "cost_saving": cost_saving}
    
    def run_control_loop(self, power_consumption):
        """启动控制循环:采集数据→调整参数→计算节能"""
        self.real_time_data["power_consumption"] = power_consumption
        self.collect_real_time_data()
        self.adjust_cooling_system()
        self.calculate_energy_saving()

# 测试控制逻辑(模拟单柜功率65kW场景)
if __name__ == "__main__":
    controller = CPOLiquidCoolingController()
    controller.run_control_loop(power_consumption=65)

这段伪代码还原了CPO+液冷协同的核心控制逻辑:通过实时监测CPO模块和CPU的温度,动态调整冷却液的温度和流量,既保证设备稳定运行,又实现精准节能。实际数据中心的控制系统,还会加入AI预测算法,根据算力负载提前调整参数,进一步提升节能效果。

三、落地实测:两家企业的实战案例,验证协同技术的真实价值

技术再先进,最终要靠实测数据说话。12月14-15日,光迅科技和中兴通讯先后公布了CPO+液冷协同方案的实测结果,这两个案例是行业落地的重要参考,我们来详细拆解。

案例1:光迅科技800G CPO光引擎,72小时满载无压力

光迅科技的测试场景是“AI训练数据中心的核心交换机”,搭载64端口800G CPO光引擎,搭配冷板式液冷系统。测试结果非常亮眼:

  • 功耗大幅下降:单端口功耗从传统方案的12W降至7W,整台交换机功耗下降42%,光互联功耗占比从传统的30%降至8%,远超工信部“低于10%”的要求。

  • 散热效果显著:液冷系统将CPO模块的散热片温度从58℃降至40℃,降低18℃,设备连续72小时满载运行,无一次过热告警。

  • 性能稳定:光信号传输延迟稳定在0.3μs,误码率低于10^-12,完全满足AI训练的高带宽、低延迟需求。

这个案例的核心价值,是验证了CPO技术在实际场景中的可靠性——之前很多人担心CPO模块封装后散热困难,而光迅科技通过液冷协同,完美解决了这个问题,为行业树立了标杆。

案例2:中兴通讯“CPO+液冷”试点,单柜65kW+PUE1.08

中兴通讯在深圳坂田基地落地了国内首个“CPO+液冷”联合试点,针对AI训练数据中心设计,单柜功率密度提升到65kW(是传统数据中心的4倍)。测试结果同样超出预期:

  • PUE低至1.08:远超工信部“≤1.15”的要求,意味着每消耗100度电,只有8度电用于散热和其他损耗,92度电都用于实际计算。

  • 延迟再降5.7μs:CPO技术降低了光互联延迟,液冷系统保证了计算芯片的稳定运行,两者协同让AI训练任务的平均节点延迟再降5.7μs,训练效率提升12%。

  • 可扩展性强:试点采用模块化设计,后续可根据算力需求升级到100kW单柜功率,无需大规模改造基础设施。

中兴的案例证明,CPO+液冷协同方案不仅能满足政策要求,还能提升AI训练效率,是新型数据中心的最优解。

四、行业变革:CPO+液冷将重塑数据中心的3大格局

工信部的政策落地和企业的实测成功,标志着CPO+液冷协同技术正式进入规模化应用阶段。未来3-5年,这项技术将从根本上重塑数据中心行业的格局:

1. 数据中心建设:从“粗放式”到“精细化”,高功率密度成主流

传统数据中心追求“规模大”,而新型数据中心将追求“效率高”。随着CPO+液冷技术的普及,新建数据中心的单柜功率密度将普遍提升到30-65kW,数据中心的占地面积将减少70%——以前需要10万平方米的超大型数据中心,现在3万平方米就能实现同等算力,大幅降低土地成本。

同时,数据中心的建设标准将更加严格,PUE≤1.15将成为“入场券”,那些无法达到要求的小数据中心将被淘汰,行业集中度会进一步提升。

2. 产业链变革:光模块、液冷设备企业迎来爆发期

CPO+液冷的规模化应用,将直接拉动两条产业链的增长:

  • CPO产业链:光芯片、光模块、封装材料企业将受益,比如光迅科技、中际旭创等企业,预计未来3年市场规模将增长5倍以上。

  • 液冷产业链:冷板、冷却液、换热器等设备企业将迎来爆发,比如高澜股份、中科曙光等企业,随着新建数据中心的需求增加,液冷设备的市场规模将从2025年的50亿元增长到2030年的500亿元。

此外,数据中心的运维模式也将改变,传统的“风冷运维工程师”将被“液冷+光互联运维工程师”取代,新职业需求将大幅增长。

3. AI算力成本:大幅降低,中小企业也能用上顶级算力

AI训练的成本主要来自两部分:算力租金和电费。CPO+液冷协同技术降低了数据中心的能耗和运维成本,对应的算力租金也会下降——目前AI训练的算力租金约为每PFlops/月1.2万元,预计2026年将降至0.8万元,下降33%。

这意味着,中小企业也能租用到廉价的顶级算力,开发自己的AI应用——比如基层医院用AI辅助诊断、小工厂用AI优化生产流程,这些以前因算力成本过高而无法实现的场景,现在都变得可行。

五、总结:CPO+液冷,数据中心的“降温革命”已到来

回到这次的热点本身,工信部《新型数据中心建设指南(2025版)》的落地,不是偶然而是必然——它标志着数据中心行业从“追求规模”转向“追求效率”,而CPO+液冷协同技术,正是这场变革的核心驱动力。

我们深挖的“CPO共封装光学”和“液冷散热”技术,看似复杂,本质上都是为了回答一个核心问题:如何在满足AI大算力需求的同时,实现数据中心的节能降耗?答案就是“协同”——通过CPO解决光互联的功耗问题,通过液冷解决计算芯片的散热问题,两者结合实现全链路节能。

对于技术从业者来说,我们需要看清一个趋势:未来的数据中心技术,都将围绕“协同优化”展开,CPO+液冷、AI+运维、软件定义数据中心这些技术,将构成新型数据中心的核心技术栈。掌握这些技术,就能在未来的行业竞争中占据主动。

最后想问大家:你所在的行业,有没有因为数据中心算力不足或成本过高而受限的场景?如果CPO+液冷技术普及后,你最想开发哪些AI应用?欢迎在评论区分享你的想法~

参考资料

[1] 码农财经. “CPO+液冷”双引擎:A股云算力新贵名单曝光. 2025-12-14.

[2] 工信部. 《新型数据中心建设指南(2025版)》征求意见稿. 2025-12-15.

[3] 光迅科技. 800G CPO光引擎实测数据公告. 2025-12-16.

[4] 中兴通讯. 国内首个“CPO+液冷”联合试点落地公告. 2025-12-13.

(注:文档部分内容可能由 AI 生成)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐