打破大模型推理困境：LORE理论框架与SFT-Compo微调方法，提升模型推理效率与准确性！

该论文提出"推理定律"(LORE)理论框架，针对大模型在解决简单问题时过度思考、复杂问题上思考不足的非理性现象。通过强制模型遵循"计算组合性"原则（组合问题的推理步骤应等于各子问题推理步骤之和），构建SFT-Compo微调方法。实验证明，该方法无需增加数据量，即可使模型在多个推理基准测试中平均准确率提升5%，同时改善模型对问题难度的感知能力，实现更合理的计算资源分配。

Python-搬运工

394人浏览 · 2025-12-25 08:45:00

Python-搬运工 · 2025-12-25 08:45:00 发布

简介

❝

一句话概括：为了治好AI“遇简则繁、遇繁则简”的怪病，作者提出了一套名为“推理定律”的理论框架，通过强制让模型学会“思考步骤可加性”这一简单逻辑，神奇地唤醒了模型更深层的推理潜能，无需更多数据就能显著提升性能。(WHEN REASONING MEETS ITS LAWS, Published on arXiv on 19 Dec 2025, by University of Illinois Urbana-Champaign)

第一阶段：识别核心概念

论文的motivation分析

当前的大型推理模型（Large Reasoning Models, LRMs，如OpenAI o1, DeepSeek-R1）在解决复杂问题上表现出色，但它们的思考行为往往违背直觉，表现出一种“反常”模式。人类在解决问题时，通常题目越难，思考时间越长；题目简单，思考时间就短。然而，现有的推理模型经常出现过度思考（Overthinking），即在简单问题上浪费大量计算资源却导致准确率下降，或者思考不足（Underthinking），面对复杂问题草草了事。

造成这种现象的根本原因在于，目前的思维链（Chain-of-Thought, CoT）训练数据大多由人类启发式标注或模型通过强化学习探索生成，缺乏明确的规则来约束“针对特定难度的问题应该分配多少思考预算”。当前的训练范式未能指导模型建立一种“最优思考策略”，导致计算资源的低效分配。论文旨在通过建立一套理论框架——推理定律（Laws of Reasoning），来规范模型的推理行为，使其回归理性。

论文主要贡献点分析

提出“推理定律”（LORE）框架：论文提出了两个核心假设。**计算定律（Compute Law）**假设推理计算量应与问题复杂度成线性关系；**准确率定律（Accuracy Law）**假设准确率应随复杂度指数级衰减。
提出可测量的代理属性：鉴于“问题复杂度”本身难以直接量化，作者将其转化为两个可操作的属性来验证定律：单调性（Monotonicity）（难问题比简单问题思考更久）和组合性（Compositionality）（组合问题的思考时间应等于子问题思考时间之和）。
构建LORE-Bench基准：为了系统性地衡量模型是否遵循这些定律，作者构建了包含LORE-MONO（测单调性）和LORE-COMPO（测组合性）的测试基准。
提出SFT-Compo微调方法：这是一种基于计算组合性的监督微调方法。它强制模型在解决组合问题时，其推理长度必须近似等于各子问题推理长度之和。实验证明，这种对推理行为的“物理约束”能显著提升模型的通用推理能力。

理解难点识别

核心挑战：在于如何将抽象不可见的“问题内在复杂度（Complexity）”转化为模型训练中可优化、可度量的具体指标。
关键概念：**计算组合性（Compute Compositionality）**是连接理论假设与实际优化的桥梁。理解为什么“强制推理长度相加”这种看似机械的约束，能够提升模型对复杂问题的内在理解和推理准确率，是理解本文方法论的关键。

概念依赖关系

理论基础：推理计算量应由问题复杂度决定（计算定律）。
现实映射：由于复杂度不可见，利用“组合问题的复杂度等于子问题复杂度之和”这一假设，推导出“组合问题的推理量应等于子问题推理量之和”（组合性）。
落地实施：通过SFT-Compo筛选符合“组合性”的数据进行微调，从而间接强迫模型学习到计算定律，最终提升推理效率和效果。

第二阶段：深入解释核心概念

比喻中的关键元素

搬家公司：代表推理模型。
货物（家具）：代表输入的问题。
货物的重量/搬运难度：代表问题的内在复杂度。
工人的劳动时间/计费单：代表模型的推理计算量（即生成的Token数量）。
“搬运A和B”的组合订单：代表由两个独立子问题组成的组合问题。
诚实的计费逻辑：代表组合性原则，即搬运总时间应等于各部分搬运时间之和。

每个元素对应的实际技术概念

**货物输入问题 **：模型需要处理的具体任务。
**货物重量复杂度 **：问题解决所需的最小逻辑步骤数，这是一个理论值，通常无法直接获得。
**劳动时间推理计算量 **：模型生成推理链（Reasoning Chain）的长度，是可观测的指标。
**组合订单组合问题 **：将两个独立问题拼接在一起形成的新问题。
诚实计费计算组合性：满足的关系。

解释为什么这些对应关系是合理的

在现实物理世界中，做功与能量消耗通常是可加的。如果搬一个沙发需要消耗100卡路里，搬一张床需要200卡路里，那么连续搬这两样东西理应消耗300卡路里（忽略微小的切换成本）。同样，如果模型是理性的，它处理两个互不干扰的独立逻辑任务时，所调用的认知资源（体现为推理Token数）也应当是可加的。如果违背这一规律，说明模型要么在偷懒（计算不足），要么在做无用功（计算冗余）。

深入技术细节

核心假设：计算定律 (Compute Law)

对于一个最优的推理模型，其分配的推理算力应当线性依赖于问题的复杂度。

原始公式：
自然语言解码：

模型推理生成的总数单位复杂度的计算系数问题的内在复杂度必要的启动或过渡开销

这里的表示随着复杂度增加，相对于主要计算量可以忽略不计的项（如读取题目、输出格式字符等）。

核心操作：组合性 (Compositionality)

由于（复杂度）是未知的，我们无法直接优化上述公式。但利用加法原理，如果和独立，则。代入计算定律，可得：

原始公式：
近似形式：
自然语言解码：

解决组合问题的推理步数解决子问题的步数解决子问题的步数

这提供了一个无需知道真实复杂度即可验证和约束模型行为的方法。

将技术细节与比喻相互映射

现有的推理模型（如DeepSeek-R1）经常表现得像一个混乱的搬家公司。

乱计费：客户要求搬“沙发+床”，工人可能磨洋工花了平时搬十倍东西的时间（违反组合性，过度思考）；或者为了省事，只花了一半的时间就把东西扔在路边（违反组合性，思考不足导致错误）。
SFT-Compo特训：这篇论文提出的方法就像是给工人立规矩：“当你接到组合订单时，你的工时单必须等于分开做这两个订单的时间之和。”
效果：一旦强迫工人（模型）遵守这个“诚实计费”的物理定律，他们就不敢偷懒也不敢磨洋工了。结果发现，这种规范化管理不仅让工时单好看了，工人实际搬运的质量（准确率）也大幅提升了。

总结

比喻与技术的联系：如同物理世界中劳动量的可加性，思维世界中的计算量也应具备可加性。核心原理：通过强制模型在生成推理链时遵循这一计算组合性原则，我们将不可见的“复杂度”映射到了可见的“Token数量”上，从而让模型学会了更优的计算资源分配策略，进而提升了解决复杂问题的能力。

第三阶段：详细说明流程步骤

1. SFT-Compo：基于组合性的数据构造流程

该方法的核心在于通过精心筛选训练数据，教会模型“组合性”这一物理定律。输入是包含各类推理题目的原始数据集。

2. 具体操作步骤描述

步骤一：构建问题三元组 (Triplet Construction)

为了训练模型的组合推理能力，首先需要构造包含子问题及其组合形式的数据样本。

从数据集中随机抽取两个类别不同且概念独立的问题，记为（例如一道概率统计题）和（例如一道代码生成题）。
构造一个组合问题，使用连接模板（如“Answer the following questions in order…”）将和拼接。
形成一个输入三元组：。

步骤二：多路推理采样 (Model Sampling)

利用模型（当前模型或更强的教师模型）生成推理路径。

将分别输入模型。
对每个问题进行次采样（Sample times），生成个不同的推理路径和最终答案。
得到三个集合：

的输出集：
的输出集：
的输出集：

步骤三：正确性过滤 (Correctness Filtering)

为了保证训练数据的质量，必须剔除错误的推理过程。

检查所有采样结果的最终答案是否与标准答案匹配。
仅保留答案正确的推理路径。若某个问题在次采样中没有一次正确，则丢弃该三元组。

步骤四：基于组合性的最优匹配 (Compositionality Selection)

这是算法的灵魂步骤，旨在从正确的推理路径中挑选出最符合“定律”的组合。

在保留的正确路径集合中，寻找一组，使得组合问题的推理长度最接近两子问题推理长度之和。
优化目标为最小化长度偏差：
选出最优的一组推理路径作为监督信号，构建三条训练数据：。

步骤五：监督微调 (Supervised Fine-Tuning)

将步骤四中筛选出的所有符合组合性约束的数据对收集起来，形成新的数据集。
使用对模型进行标准的监督微调（SFT）。通过这种方式，模型在学习正确解题的同时，隐式地被植入了“推理长度应当可加”的归纳偏置。

3. 具体流程伪代码

def generate_sft_compo_data(dataset, model, K=8):    training_data = []        # 步骤一：构建三元组    triplets = create_triplets(dataset) # (x1, x2, x12)        for x1, x2, x12 in triplets:        # 步骤二：采样        # 获取 x1 的 K 个输出，格式为 (reasoning_chain, final_answer)        outputs_1 = model.sample(x1, n=K)        outputs_2 = model.sample(x2, n=K)        outputs_12 = model.sample(x12, n=K)                # 步骤三：过滤正确答案        correct_1 = [out for out in outputs_1 if is_correct(out.answer, x1.label)]        correct_2 = [out for out in outputs_2 if is_correct(out.answer, x2.label)]        correct_12 = [out for out in outputs_12 if is_correct(out.answer, x12.label)]                # 如果任一问题没有正确答案，跳过        if not (correct_1 and correct_2 and correct_12):            continue                    # 步骤四：选择最符合组合性定律的组合        best_triple = None        min_diff = float('inf')                for r1 in correct_1:            for r2 in correct_2:                for r12 in correct_12:                    # 计算长度偏差                    L1 = len(r1.tokens)                    L2 = len(r2.tokens)                    L12 = len(r12.tokens)                    diff = abs(L1 + L2 - L12)                                        if diff < min_diff:                        min_diff = diff                        best_triple = (r1, r2, r12)                # 将最佳组合加入训练集        r1_best, r2_best, r12_best = best_triple        training_data.append((x1, r1_best.full_output))        training_data.append((x2, r2_best.full_output))        training_data.append((x12, r12_best.full_output))            return training_data# 步骤五：微调# run_sft(base_model, training_data)

第四阶段：实验设计与验证分析

主实验设计解读：核心论点的验证

核心论点：强制模型遵循计算组合性（Compute Compositionality），即规范其推理长度，可以显著提升模型的通用推理能力。

数据集与评价指标：

Benchmark：采用了GSM8K, MATH500, AIME, OlympiadBench等权威数学与科学推理基准。这些数据集对推理深度有较高要求，适合评估CoT能力。
评价指标：Pass@1 Accuracy。
基线方法：

Base模型：原始的DeepSeek-R1-Distill系列模型。
普通SFT（Control Baseline）：从正确答案中随机采样一条推理路径进行微调，而不考虑长度组合性约束。这一基线至关重要，它排除了“模型变强是因为见过更多正确数据”的干扰因素。

实验结论： SFT-Compo在所有尺寸（1.5B, 7B, 8B）和绝大多数基准测试中均优于Base模型和普通SFT。例如，在DeepSeek-R1-8B模型上，SFT-Compo的平均准确率相比Base提升了 **+5.0%**。这直接证明了遵循推理定律能带来实质性的性能增益。

消融实验分析：内部组件的贡献

为了验证“组合性筛选”的必要性，作者对比了 SFT-Compo 与 Random SFT。

差异点：两者都使用了同样的模型生成的正确答案，唯一的区别在于SFT-Compo挑选了满足的样本，而Random SFT是随机挑选。
结果：SFT-Compo始终优于Random SFT。
洞察：这表明性能的提升并非来自知识蒸馏（因为Random SFT也包含了同样的知识），而是来自对推理行为的规范化。强制模型学习“做加法”的思维习惯，实际上是在训练模型更精准地分配计算注意力。

深度/创新性实验剖析：洞察方法的内在特性

可视化分析：定律间的协同效应（Synergy）

作者设计了精巧的可视化实验来探究不同推理定律之间的联系。

实验设计：

绘制散点图，横轴为，纵轴为。
分析模型在微调前后对 单调性（Monotonicity） 和 准确率定律（Accuracy Law） 的遵循程度。

实验发现：

计算组合性提升：Base模型的点分布在对角线下方（说明存在Underthinking），而SFT-Compo后的模型点紧密分布在对角线附近，证明微调有效。
协同效应：有趣的是，虽然微调只约束了“计算量（长度）”，但模型在 准确率 上也表现出了更好的组合性（即），并且在单调性测试（LORE-MONO）上的相关系数也显著提高。

结论：这揭示了推理定律之间存在深层的内在一致性。一旦矫正了模型的计算分配机制（使其符合物理直觉的计算定律），模型的其他推理行为（如准确率、难度感知）也会自动向最优模式收敛。这暗示了LORE框架可能触及了大模型推理的本质规律。

如何系统的学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述