打破大模型推理困境:LORE理论框架与SFT-Compo微调方法,提升模型推理效率与准确性!
该论文提出"推理定律"(LORE)理论框架,针对大模型在解决简单问题时过度思考、复杂问题上思考不足的非理性现象。通过强制模型遵循"计算组合性"原则(组合问题的推理步骤应等于各子问题推理步骤之和),构建SFT-Compo微调方法。实验证明,该方法无需增加数据量,即可使模型在多个推理基准测试中平均准确率提升5%,同时改善模型对问题难度的感知能力,实现更合理的计算资源分配。
简介
该论文提出"推理定律"(LORE)理论框架,针对大模型在解决简单问题时过度思考、复杂问题上思考不足的非理性现象。通过强制模型遵循"计算组合性"原则(组合问题的推理步骤应等于各子问题推理步骤之和),构建SFT-Compo微调方法。实验证明,该方法无需增加数据量,即可使模型在多个推理基准测试中平均准确率提升5%,同时改善模型对问题难度的感知能力,实现更合理的计算资源分配。

❝
一句话概括:为了治好AI“遇简则繁、遇繁则简”的怪病,作者提出了一套名为“推理定律”的理论框架,通过强制让模型学会“思考步骤可加性”这一简单逻辑,神奇地唤醒了模型更深层的推理潜能,无需更多数据就能显著提升性能。(WHEN REASONING MEETS ITS LAWS, Published on arXiv on 19 Dec 2025, by University of Illinois Urbana-Champaign)
第一阶段:识别核心概念
论文的motivation分析
当前的大型推理模型(Large Reasoning Models, LRMs,如OpenAI o1, DeepSeek-R1)在解决复杂问题上表现出色,但它们的思考行为往往违背直觉,表现出一种“反常”模式。人类在解决问题时,通常题目越难,思考时间越长;题目简单,思考时间就短。然而,现有的推理模型经常出现过度思考(Overthinking),即在简单问题上浪费大量计算资源却导致准确率下降,或者思考不足(Underthinking),面对复杂问题草草了事。
造成这种现象的根本原因在于,目前的思维链(Chain-of-Thought, CoT)训练数据大多由人类启发式标注或模型通过强化学习探索生成,缺乏明确的规则来约束“针对特定难度的问题应该分配多少思考预算”。当前的训练范式未能指导模型建立一种“最优思考策略”,导致计算资源的低效分配。论文旨在通过建立一套理论框架——推理定律(Laws of Reasoning),来规范模型的推理行为,使其回归理性。
论文主要贡献点分析
- 提出“推理定律”(LORE)框架:论文提出了两个核心假设。**计算定律(Compute Law)**假设推理计算量应与问题复杂度成线性关系;**准确率定律(Accuracy Law)**假设准确率应随复杂度指数级衰减。
- 提出可测量的代理属性:鉴于“问题复杂度”本身难以直接量化,作者将其转化为两个可操作的属性来验证定律:单调性(Monotonicity)(难问题比简单问题思考更久)和组合性(Compositionality)(组合问题的思考时间应等于子问题思考时间之和)。
- 构建LORE-Bench基准:为了系统性地衡量模型是否遵循这些定律,作者构建了包含LORE-MONO(测单调性)和LORE-COMPO(测组合性)的测试基准。
- 提出SFT-Compo微调方法:这是一种基于计算组合性的监督微调方法。它强制模型在解决组合问题时,其推理长度必须近似等于各子问题推理长度之和。实验证明,这种对推理行为的“物理约束”能显著提升模型的通用推理能力。
理解难点识别
- 核心挑战:在于如何将抽象不可见的“问题内在复杂度(Complexity)”转化为模型训练中可优化、可度量的具体指标。
- 关键概念:**计算组合性(Compute Compositionality)**是连接理论假设与实际优化的桥梁。理解为什么“强制推理长度相加”这种看似机械的约束,能够提升模型对复杂问题的内在理解和推理准确率,是理解本文方法论的关键。
概念依赖关系
- 理论基础:推理计算量应由问题复杂度决定(计算定律)。
- 现实映射:由于复杂度不可见,利用“组合问题的复杂度等于子问题复杂度之和”这一假设,推导出“组合问题的推理量应等于子问题推理量之和”(组合性)。
- 落地实施:通过SFT-Compo筛选符合“组合性”的数据进行微调,从而间接强迫模型学习到计算定律,最终提升推理效率和效果。
第二阶段:深入解释核心概念
比喻中的关键元素
- 搬家公司:代表推理模型。
- 货物(家具):代表输入的问题。
- 货物的重量/搬运难度:代表问题的内在复杂度。
- 工人的劳动时间/计费单:代表模型的推理计算量(即生成的Token数量)。
- “搬运A和B”的组合订单:代表由两个独立子问题组成的组合问题。
- 诚实的计费逻辑:代表组合性原则,即搬运总时间应等于各部分搬运时间之和。
每个元素对应的实际技术概念
- **货物 输入问题 **:模型需要处理的具体任务。
- **货物重量 复杂度 **:问题解决所需的最小逻辑步骤数,这是一个理论值,通常无法直接获得。
- **劳动时间 推理计算量 **:模型生成推理链(Reasoning Chain)的长度,是可观测的指标。
- **组合订单 组合问题 **:将两个独立问题拼接在一起形成的新问题。
- 诚实计费 计算组合性:满足 的关系。
解释为什么这些对应关系是合理的
在现实物理世界中,做功与能量消耗通常是可加的。如果搬一个沙发需要消耗100卡路里,搬一张床需要200卡路里,那么连续搬这两样东西理应消耗300卡路里(忽略微小的切换成本)。同样,如果模型是理性的,它处理两个互不干扰的独立逻辑任务时,所调用的认知资源(体现为推理Token数)也应当是可加的。如果违背这一规律,说明模型要么在偷懒(计算不足),要么在做无用功(计算冗余)。
深入技术细节
核心假设:计算定律 (Compute Law)
对于一个最优的推理模型,其分配的推理算力应当线性依赖于问题的复杂度。
-
原始公式:
-
自然语言解码:
模型推理生成的总数单位复杂度的计算系数问题的内在复杂度必要的启动或过渡开销
这里的 表示随着复杂度增加,相对于主要计算量可以忽略不计的项(如读取题目、输出格式字符等)。
核心操作:组合性 (Compositionality)
由于 (复杂度)是未知的,我们无法直接优化上述公式。但利用加法原理,如果 和 独立,则 。代入计算定律,可得:
-
原始公式:
-
近似形式:
-
自然语言解码:
解决组合问题的推理步数解决子问题的步数解决子问题的步数
这提供了一个无需知道真实复杂度即可验证和约束模型行为的方法。
将技术细节与比喻相互映射
现有的推理模型(如DeepSeek-R1)经常表现得像一个混乱的搬家公司。
- 乱计费:客户要求搬“沙发+床”,工人可能磨洋工花了平时搬十倍东西的时间(违反组合性,过度思考);或者为了省事,只花了一半的时间就把东西扔在路边(违反组合性,思考不足导致错误)。
- SFT-Compo特训:这篇论文提出的方法就像是给工人立规矩:“当你接到组合订单时,你的工时单必须等于分开做这两个订单的时间之和。”
- 效果:一旦强迫工人(模型)遵守这个“诚实计费”的物理定律,他们就不敢偷懒也不敢磨洋工了。结果发现,这种规范化管理不仅让工时单好看了,工人实际搬运的质量(准确率)也大幅提升了。
总结
比喻与技术的联系:如同物理世界中劳动量的可加性,思维世界中的计算量也应具备可加性。核心原理:通过强制模型在生成推理链时遵循 这一计算组合性原则,我们将不可见的“复杂度”映射到了可见的“Token数量”上,从而让模型学会了更优的计算资源分配策略,进而提升了解决复杂问题的能力。
第三阶段:详细说明流程步骤
1. SFT-Compo:基于组合性的数据构造流程
该方法的核心在于通过精心筛选训练数据,教会模型“组合性”这一物理定律。输入是包含各类推理题目的原始数据集 。
2. 具体操作步骤描述
步骤一:构建问题三元组 (Triplet Construction)
为了训练模型的组合推理能力,首先需要构造包含子问题及其组合形式的数据样本。
- 从数据集中随机抽取两个类别不同且概念独立的问题,记为 (例如一道概率统计题)和 (例如一道代码生成题)。
- 构造一个组合问题 ,使用连接模板(如“Answer the following questions in order…”)将 和 拼接。
- 形成一个输入三元组:。
步骤二:多路推理采样 (Model Sampling)
利用模型(当前模型或更强的教师模型)生成推理路径。
- 将 分别输入模型。
- 对每个问题进行 次采样(Sample times),生成 个不同的推理路径 和最终答案 。
- 得到三个集合:
- 的输出集:
- 的输出集:
- 的输出集:
步骤三:正确性过滤 (Correctness Filtering)
为了保证训练数据的质量,必须剔除错误的推理过程。
- 检查所有采样结果的最终答案 是否与标准答案匹配。
- 仅保留答案正确的推理路径。若某个问题在 次采样中没有一次正确,则丢弃该三元组。
步骤四:基于组合性的最优匹配 (Compositionality Selection)
这是算法的灵魂步骤,旨在从正确的推理路径中挑选出最符合“定律”的组合。
- 在保留的正确路径集合中,寻找一组 ,使得组合问题的推理长度最接近两子问题推理长度之和。
- 优化目标为最小化长度偏差:
- 选出最优的一组推理路径作为监督信号,构建三条训练数据:。
步骤五:监督微调 (Supervised Fine-Tuning)
- 将步骤四中筛选出的所有符合组合性约束的数据对收集起来,形成新的数据集 。
- 使用 对模型进行标准的监督微调(SFT)。通过这种方式,模型在学习正确解题的同时,隐式地被植入了“推理长度应当可加”的归纳偏置。
3. 具体流程伪代码
def generate_sft_compo_data(dataset, model, K=8): training_data = [] # 步骤一:构建三元组 triplets = create_triplets(dataset) # (x1, x2, x12) for x1, x2, x12 in triplets: # 步骤二:采样 # 获取 x1 的 K 个输出,格式为 (reasoning_chain, final_answer) outputs_1 = model.sample(x1, n=K) outputs_2 = model.sample(x2, n=K) outputs_12 = model.sample(x12, n=K) # 步骤三:过滤正确答案 correct_1 = [out for out in outputs_1 if is_correct(out.answer, x1.label)] correct_2 = [out for out in outputs_2 if is_correct(out.answer, x2.label)] correct_12 = [out for out in outputs_12 if is_correct(out.answer, x12.label)] # 如果任一问题没有正确答案,跳过 if not (correct_1 and correct_2 and correct_12): continue # 步骤四:选择最符合组合性定律的组合 best_triple = None min_diff = float('inf') for r1 in correct_1: for r2 in correct_2: for r12 in correct_12: # 计算长度偏差 L1 = len(r1.tokens) L2 = len(r2.tokens) L12 = len(r12.tokens) diff = abs(L1 + L2 - L12) if diff < min_diff: min_diff = diff best_triple = (r1, r2, r12) # 将最佳组合加入训练集 r1_best, r2_best, r12_best = best_triple training_data.append((x1, r1_best.full_output)) training_data.append((x2, r2_best.full_output)) training_data.append((x12, r12_best.full_output)) return training_data# 步骤五:微调# run_sft(base_model, training_data)
第四阶段:实验设计与验证分析
主实验设计解读:核心论点的验证
核心论点:强制模型遵循计算组合性(Compute Compositionality),即规范其推理长度,可以显著提升模型的通用推理能力。
数据集与评价指标:
- Benchmark:采用了GSM8K, MATH500, AIME, OlympiadBench等权威数学与科学推理基准。这些数据集对推理深度有较高要求,适合评估CoT能力。
- 评价指标:Pass@1 Accuracy。
- 基线方法:
- Base模型:原始的DeepSeek-R1-Distill系列模型。
- 普通SFT(Control Baseline):从正确答案中随机采样一条推理路径进行微调,而不考虑长度组合性约束。这一基线至关重要,它排除了“模型变强是因为见过更多正确数据”的干扰因素。
实验结论: SFT-Compo在所有尺寸(1.5B, 7B, 8B)和绝大多数基准测试中均优于Base模型和普通SFT。例如,在DeepSeek-R1-8B模型上,SFT-Compo的平均准确率相比Base提升了 **+5.0%**。这直接证明了遵循推理定律能带来实质性的性能增益。
消融实验分析:内部组件的贡献
为了验证“组合性筛选”的必要性,作者对比了 SFT-Compo 与 Random SFT。
- 差异点:两者都使用了同样的模型生成的正确答案,唯一的区别在于SFT-Compo挑选了满足 的样本,而Random SFT是随机挑选。
- 结果:SFT-Compo始终优于Random SFT。
- 洞察:这表明性能的提升并非来自知识蒸馏(因为Random SFT也包含了同样的知识),而是来自对推理行为的规范化。强制模型学习“做加法”的思维习惯,实际上是在训练模型更精准地分配计算注意力。
深度/创新性实验剖析:洞察方法的内在特性
可视化分析:定律间的协同效应(Synergy)
作者设计了精巧的可视化实验来探究不同推理定律之间的联系。
- 实验设计:
- 绘制散点图,横轴为 ,纵轴为 。
- 分析模型在微调前后对 单调性(Monotonicity) 和 准确率定律(Accuracy Law) 的遵循程度。
- 实验发现:
- 计算组合性提升:Base模型的点分布在 对角线下方(说明存在Underthinking),而SFT-Compo后的模型点紧密分布在对角线附近,证明微调有效。
- 协同效应:有趣的是,虽然微调只约束了“计算量(长度)”,但模型在 准确率 上也表现出了更好的组合性(即 ),并且在单调性测试(LORE-MONO)上的相关系数也显著提高。
- 结论:这揭示了推理定律之间存在深层的内在一致性。一旦矫正了模型的计算分配机制(使其符合物理直觉的计算定律),模型的其他推理行为(如准确率、难度感知)也会自动向最优模式收敛。这暗示了LORE框架可能触及了大模型推理的本质规律。
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)