【技术突破】90%效率提升!港大LightReasoner让小模型教大模型关键推理!
LightReasoner是香港大学提出的一种创新方法,让小模型通过"关键推理步骤"教学来提升大模型性能。该方法使用KL散度识别模型间差异的关键步骤,通过自我蒸馏强化这些步骤,而非全面训练。实验显示,该方法在数学推理任务上显著提升性能(最高+28.1%),同时减少90%训练时间和99%训练token。这一技术标志着从"规模至上"到"效率进化"的转变,开创了模型间互补教学的新范式。
港大提出LightReasoner:让小模型教大模型“关键推理”,效率提升90%!
今天要和大家聊一篇非常有意思的工作——LightReasoner。
这篇由香港大学发表的最新论文,挑战了AI界一个习以为常的认知:“大模型一定比小模型强,小模型只能被教导,不能当老师。”
结果他们发现:小模型不仅能够教大模型,还能教得更有针对性、更省资源!

一、起源:从CD的兴衰说起
LightReasoner的思想,起源于一篇叫做 Contrastive Decoding(CD) 的早期工作。
CD的作者提出:小模型虽然绝对能力不强,但可以帮助大模型看清自己的“优势”。它的做法是在大模型推理阶段的每一步,都挂载一个小模型,通过对比两者的输出差异,找出大模型的“强”,并用这个差异来缓解大模型的幻觉问题。

然而,CD有三个致命局限:
-
- 推理效率低下:推理过程中的每一步都要做大小模型的对比,导致推理缓慢、资源消耗大;
-
- 缺乏步骤筛选:对所有token一视同仁,没有聚焦关键步骤;
-
- 依赖模型大小差异:必须拉开模型规模(如65B vs 1.5B)才能形成有效对比,极不灵活。
这些局限让CD这条技术路线逐渐沉寂。
二、复活:新时代的三大破局点
随着AI进入新阶段,CD的这些局限迎来了转机:
1. 从“人为干预”到“自主学习”
CD试图在推理阶段干预模型行为,而现在的AI发展潮流更倾向于让模型自主学会强化自身优势。
2. 从“一视同仁”到“关键步骤”
LightReasoner的作者意识到:并非每一步都需要干预。只需要在模型真正体现出专业优势的“关键推理步”上做文章,就能事半功倍。

3. 从“规模差异”到“专业差异”
如今,模型家族内部出现了丰富的能力差异化。例如,Qwen系列模型提供了:
- • Qwen2.5(通用基础模型)
- • Qwen2.5-Math(数学预训练模型)
- • Qwen2.5-Math-Instruct(数学指令微调模型)

即使参数规模相同,但是它们在数学能力上的差异,可能比当年CD使用的65B vs 1.5B之间的差距还要大!
三、核心理念:后训练的“第三条路”
不管是在学界还是工业界,目前针对于预训练模型的后训练主要有两种思路:
- • “全面复习”:,让学生通过抄写标准答案来掌握整个流程,扎实但低效;
- • “纠错补习”:,通过外部反馈识别薄弱环节并修正,效果显著但不稳定。
LightReasoner的研究团队提出了第三条路:“优势挖掘,精益求精”。


一个仅在专业领域的语料上预训练而未经过后处理的模型,其内部已经蕴藏着远超当前表现的推理潜力。预训练已将大量知识内化,但它们未必能被稳定、精准地激活。
LightReasoner的目标不是“全面复习”或“纠错补短”,而是强化模型已经做得很好的地方,把那些已经可以做到“85分”的关键推理步骤,推到“95分”。
四、技术突破:KL散度揭示推理关键瓶颈
为了验证这一理念,LightReasoner团队对“专家模型”与“业余模型”在推理过程中的行为进行了细致分析,使用KL散度衡量两者在每一步预测分布上的差异。

他们基于实验的统计分析揭示了几个关键模式:
- • 分歧的稀疏性:约60%的Token其KL散度接近于零,表明模型在大部分琐碎推理步骤上高度一致
- • 关键步骤的显著性:仅有约20%的Token表现出高KL散度,这些峰值通常出现在算术运算、逻辑转折等核心环节
- • 隐藏的不一致性:即使两个模型预测的Top-1 Token一致,仍有约10%的步骤KL散度大于0.4,表明底层决策分布依旧存在着显著差异
这些发现证实了LightReasoner的核心假设:推理能力的差异集中在少数关键的决策瓶颈上。
这些高KL散度步骤,可能正是专家知识体现其价值的“胜负手”。
五、方法实现:从行为对比到优势蒸馏

LightReasoner框架包含两个核心阶段:
阶段一:对比采样
-
- 信息性步骤选择:使用阈值过滤器自动定位关键步骤。实现的方法是:仅当专家与业余模型的输出分布之间的KL散度超过阈值β时,该步骤才被保留用于训练。

-
- 构建对比监督信号:对于每个关键步骤,构建对比性标签:

-
• 首先过滤掉专家模型的输出分布中的低概率尾部Token
-
• 然后计算每个Token的对比分数:
log(π_expert) - log(π_amateur) -
• 这个分数直接量化了专家模型相对于业余模型的优势
阶段二:自我蒸馏
训练目标:最小化专家模型当前的输出分布与刚刚构建的“对比性标签”所提供的目标分布之间的KL散度。

这个训练目标达到的效果是:引导专家模型在其已经具备优势的Token上分配更高的置信度,同时抑制其与业余模型相似的预测倾向。
比喻:我们的目标是让一位职业棋手的技术得到进一步提升。传统方法会让这位高手把整盘棋重下一遍,而LightReasoner的做法则不同:通过让两位棋手(一个职业高手和一个业余选手)对弈,只去复盘那些“关键棋步”——业余选手在这里下错了,而职业高手下对了。然后让高手专门强化练习这些“制胜步”。
六、实验结果:不只是好,而且是“又好又快”
LightReasoner研究团队在7个数学推理基准、5种不同模型上的实验表明:
性能全面提升

- • 在Qwen2.5-Math-1.5B模型上,GSM8K的准确率提升+28.1%,MATH的准确率提升+25.1%,SVAMP的准确率提升+7.2%,ASDIV的准确率提升+11.7%。
- • 在Qwen2.5-Math-7B模型上:GSM8K的准确率提升+10.4%,MATH的准确率提升+6.0%,SVAMP的准确率提升+9.3%,ASDIV的准确率提升+7.9%。
- • 在DeepSeek-R1-Distill-Qwen-1.5B模型上:GSM8K的准确率提升+4.3%,MATH的准确率提升+6.0%,OlympiadBench的准确率提升+17.4%。
- • 即使对已经经历大量后训练、能力强劲的Instruct模型,仍有稳定提升
效率提升巨大

以LightReasoner团队测试的Qwen2.5-Math-1.5B模型举例:
- • 时间消耗减少90%:从4小时 → 0.5小时
- • 采样问题减少80%:从3952个 → 1000个
- • 训练token减少99%:从177万 → 2万
在团队测试的其余基线模型上,达到了类似的效率提升。
泛化能力强劲

仅在GSM8K上训练,却可以在MATH、SVAMP、Minerva Math、MMLU STEM等多个数据集上都有提升,从侧面证明了LightReasoner帮助模型学到的是通用推理能力,而非特定数据集的技巧。
七、深层启示:LightReasoner是“推理训练的新范式”
1. 告别“规模至上”思维

LightReasoenr发现:领域专业知识差异比参数规模差异更重要。这意味着我们不再需要维持庞大的“业余模型”来获得教学信号,大大降低了这种“学习新范式”的实用门槛。
2. 从“结果监督”到“过程对比”

传统方法依赖“标准答案”,而LightReasoner证明了:模型之间的行为差异本身就是强大的监督信号。
这一转变的革命性在于:今后AI的发展也许可以摆脱对标注数据的依赖,让模型在数学、科学、代码等缺乏标准答案的领域实现自我进化。这标志着大语言模型的训练从“数据驱动”迈向了“行为驱动”的新阶段。
3. 为“模型协作生态”铺路
如果小模型能教大模型,那么大模型之间能否互相教学?专业模型能否跨领域教学?
这很有可能指向了一个模型间相互学习、共同进化的未来图景。


八、从“规模竞赛”到“效率进化”
LightReasoner这篇工作是启发性的:在AI发展的道路上,有时候 “反向思考”能带来意想不到的突破。
更重要的是,这项工作可能标志着今后AI发展的一个转折点:从一味追求“更大规模、更多数据”的粗放增长,开始转向“更高效、更智能”的集约进化。
当我们不再把大小模型简单地划分为“老师”和“学生”,而是看到它们之间动态的、互补的教学关系时,一个更高效、更灵活的模型进化路径就展现在我们面前。
这项工作的代码已开源,期待看到更多研究者在这个方向上的探索!
九、如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)