给扩散模型装上“上帝视角”!中国联通NeurIPS 2025 Spotlight,全局优化实现效率革命
作者和团队介绍:本文一作是高焕霖和陈平,通讯作者为赵放和廉士国,其他作者还包括石芙源、谭超、刘兆祥、王恺,所有作者均来自联通数据智能有限公司(联通数据科学与人工智能研究院)元景大模型研发团队。
作者和团队介绍:本文一作是高焕霖和陈平,通讯作者为赵放和廉士国,其他作者还包括石芙源、谭超、刘兆祥、王恺,所有作者均来自联通数据智能有限公司(联通数据科学与人工智能研究院)元景大模型研发团队。
当前,视频生成模型性能正在快速提升,尤其是基于Transformer架构的DiT模型,在视频生成领域的表现已经逐渐接近真实拍摄效果。然而,这些扩散模型也面临一个共同的瓶颈:推理时间长、算力成本高、生成速度难以提升。随着视频生成长度持续增加、分辨率不断提高,这个瓶颈正在成为影响视频创作体验的主要障碍之一。
来自中国联通数据科学与人工智能研究院的研究团队提出了一个全新的思路 :LeMiCa(Lexicographic Minimax Path Caching)——**一种无需训练、全局最优建模的缓存加速框架,**能在保持画质与一致性的同时,实现高效的推理加速。LeMiCa解决的是一个长期被“局部贪心决策”束缚的老问题:**扩散模型是否存在一种真正“全局一致、误差可控、速度极快”的缓存加速路径?**研究答案是:有。并且比想象中简单得多。
这项研究已经成功入选 NeurIPS 2025 Spotlight。

一、核心亮点:
LeMiCa 如何做到“又快又稳”?
当前主流的缓存加速方法(如TeaCache)采用了“局部贪心”策略:如果相邻时间步之间的变化很小,就选择复用缓存。然而,这种“走一步看一步”的策略忽视了扩散模型的重要特性——早期步骤对生成结果有较高的敏感性,微小的误差可能在后期被不断放大,影响最终画质。同时,许多现有方法需要引入在线判别机制,这会引入额外的计算负担,使得生成过程依然缓慢。
LeMiCa的核心思想是:
“缓存加速并不是局部决策问题,而是一个全局路径优化问题。”
研究团队发现,扩散模型的生成过程其实可以抽象成一个**带权有向无环图(DAG) 。**每个节点代表一个时间步,每条边代表在两个时间步之间“跳过计算、复用缓存”的行为,边的权重则对应缓存导致的全局误差。这样,缓存策略可以很自然的转化为在DAG中搜索最优路径的问题。

二、LeMiCa技术实现:从误差建模到图优化
为了准确评估缓存的影响,LeMiCa提出了一种全新的误差度量方法,通过离线构建静态DAG来量化缓存对最终生成视频结果的影响。DAG的构成部分主要有:1)节点:每个时间步;2)边:可能的缓存区间;3)边权重:缓存-复用引发的全局重建误差。具体来说,对于DAG中节点i到j的边权被定义为:
其中,代表了从时间步i 到时间步j 启用缓存复用机制时所带来的全局误差,这个全局误差可以通过加速前后输出图像之间的L1 损失来量化。
在图构建过程中,我们会对每个时间步进行节点抽象。DAG中的每一条边代表在时间步i到j之间跳过若干步计算、直接复用缓存的行为。为避免图过于庞大,LeMiCa依据“距离越长,缓存误差越大”的先验知识,设置了最大跳跃长度,从而只保留合理的缓存段以减少搜索复杂度。最终,为了保证鲁棒性和泛化性,LeMiCa仅使用少量样本(prompt和seed)离线生成多个DAG并进行融合,最终得到一个静态的、跨任务可复用的全局误差图。
字典序极小化路径优化(Lexicographic Minimax Path):在构建好静态误差图之后,LeMiCa 将缓存调度问题形式化为:在固定预算 B 下,从起点到终点寻找一条最优路径。由于传统的“最短路径”或“局部最优”算法不具备线性可加性,导致最短路径算法不再适用,LeMiCa采用了字典序极小化准则来进行路径搜索。这种优化方式不追求误差总和最小,而是逐层比较路径中各段缓存的误差值,确保:
- 最大误差被最小化(避免单段灾难性退化)
- 误差分布更均衡(提升全局一致性)
形式化定义如下:
其中
:表示所有从起点
到终点
且包含恰好
次完整推理的路径集合,
表示路径中对应缓存复用的边集合,
:表示边
的误差权重,
表示对误差向量按降序排列。
通过字典序比较,LeMiCa避免了“看似整体误差低但中间崩坏”的路径:
若路径A的最大误差 < 路径B的最大误差 → A 更优
若最大误差相同 → 比较第二大依次类推
三、实验结果:加速与画质兼得
联通元景大模型研究团队在多个主流视频生成模型中验证了LeMiCa的性能。从结果中可以看到该方法在保留加速前后的视觉一致性具有显著优势,这也正是全局路径视角下的图优化所带来的增益。

从视觉效果上看,LeMiCa生成的视频在结构风格保持、内容一致性方面都显著提升。

即使在高倍加速推理下,也几乎看不出明显退化。

从结果中可以看出,LeMiCa对比其他主流方法,存在以下明显优势:
- 极佳的生成效果:结构、纹理和内容一致性全面提升;
- 优秀的加速性能:提供2.4×以上的高倍加速推理;
四、消融实验:
少样本建图,高鲁棒性,场景扩展能力
**极少样本建立DAG:**LeMiCa仅凭少量样本即可构建高质量缓存路径,单样本已具强性能,20个样本即达到性能饱和,体现了静态缓存策略的高效与稳健。

**加速路径的鲁棒性:**即使改变采样调度中的轨迹缩放参数得到不同的去噪轨迹,LeMiCa仍有较好的效果,体现了良好的路径鲁棒性。

**文生图模型兼容:**由于LeMiCa本质上是一个用于扩散模型缓存加速的框架,因此其也适用于文生图模型。我们拿最新的QWen-Image模型进行了实验,得到了同样出色的加速效果:

五、业界顶级团队推荐
LeMiCa得到了顶级多模态模型研发团队阿里通义千问和智谱AI的认可,分别在其官方主页上对LeMiCa进行权威推荐!




总结与展望
LeMiCa以全局优化视角重新定义了扩散视频生成的加速问题。它突破了传统“局部贪心”式缓存策略的局限,将缓存调度建模为有向无环图(DAG)上的全局路径搜索问题。作为一种通用的免训练加速框架,LeMiCa为视频生成带来了“又快又稳”的新范式,联通元景大模型团队希望以此为基石,为业界关于扩散模型的加速和复杂场景生成提供新的思考角度。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐

所有评论(0)