推理模型走进“数据时代”:一篇 NeurIPS 论文带来的启发
我们常用参数和算力评价大模型,却少问:是谁教会它会想?借一篇 NeurIPS 论文,我从高难数学 + 简单代码这套数据配方,聊聊推理模型走进“数据时代”意味着什么,给做模型、做平台和应用的人一个参考。
一个做产品/市场/策略的人,给非研究者的技术翻译本
边界层 · 算法&论文|推理模型走进“数据时代”:一篇 NeurIPS 论文带来的启发
过去这一年,大家都在讨论 DeepSeek-R1、o1 这一类“会认真想一想”的推理模型:参数不一定最大,但在 AIME、LiveCodeBench 这类基准上,数学和代码成绩一路往上刷。
AIME 是 American Invitational Mathematics Examination,美国高水平高中数学竞赛,现在经常被做成 AIME24、AIME25 这样的推理 benchmark,用来测试模型的多步推理能力。对于从业者来说,它代表的是一种“真正要动脑子”的题型,而不是只靠记忆就能应付的测试。
前几天,我和一位还在上海交大读人工智能博士的学妹聊起今年 NeurIPS 。她自己也中了一篇,但因为签证被卡,最后没能去现场。聊天时,她把实验室的一篇工作发给我看——《Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions》,他们提出的框架叫 Infra(Influence-based Reasoning Attribution)所以下文中就简称Infra 论文。
征得她同意之后,我决定从一个不写代码、但长期看产品和产业路线的视角,把这篇论文解读一遍,也顺便把这一条“训练数据归因 / 数据配方”的方法路线梳理清楚。
换句话说:
当推理模型开始“走进数据时代”,我们不再只看参数和显卡,而是要认真问一句——到底是哪些数据,在教会模型“会想”和“会写”?
一、从产业一线的困惑出发:推理能力,真的只是“多算力 + 多数据”吗?
如果你在公司负责大模型相关的产品或项目,这一年大概听过类似的话:
有的版本里,模型在 demo 和榜单上表现惊艳,AIME24、AIME25、LiveCodeBench 这些数字很好看,但一旦换成业务里的真实问题——哪怕只是换一种问法、换一套场景——效果就开始“漏气”。有的团队于是开始“多喂数据”:FAQ 再爬一圈、SQL 再加一批、业务文档全部塞进去,但训完指标并没有线性拉升,甚至偶尔还掉一点,于是开始怀疑:是模型不行、数据不行,还是我们根本不知道自己在喂什么。
尤其在“会推理”的场景里,大家心里的目标其实是:希望模型像一个靠谱的分析师,先把条件梳理清楚,再给结论,而不是直接“爆答案”。但现实经常是:
有时候模型变得非常啰嗦,却没什么新增信息,只是语言上的堆砌;有时候则学会了“表演推理”,写一长串看起来像思考的东西,但本质是在绕着既有答案转圈。
这些现象的共同点是:我们往往只在看“结果”——模型是不是做对题、指标是不是提高——却缺乏一套工具,去回答一个更基础的问题:
到底是哪些训练数据、哪些推理过程,真的把这点能力“教”给模型的?
这正是“训练数据归因(Training Data Attribution)”想要解决的事情,也是 Infra 这篇论文所在的研究方向。
二、“训练数据归因”到底在干什么?——从家教课的类比说起
“训练数据归因”听起来很学术,其实可以先忘掉数学,从生活里的一个场景开始:
想象你给孩子请了一位家教老师,上一整个学期的课,做了很多套卷子,期末孩子在数学和程序设计考试里都考得不错。作为家长,你自然会问三件事:
-
到底是哪几套卷子最有用,是那几套高难度综合题,还是贯穿一学期的基础练习题?
-
是哪几次讲题方式最关键,是一步步拆解、画图推理,还是直接给公式、让他记住套路?
-
哪种表达方式对孩子最友好,是“首先……其次……因此……”这种很清晰的逻辑结构,还是密密麻麻写公式?
训练数据归因做的,就是在模型世界里回答同一类问题。在模型已经训练好的前提下,往回看:
-
如果把某一类训练样本“拨掉”,模型在某个基准(比如 AIME24、LiveCodeBench)上的表现会掉多少?
-
如果把某一种推理行为删掉(比如探索尝试、验算步骤),结果会有什么变化?
-
如果换一种语言结构(多一些逻辑连接词,或者多一些代码结构标记),推理质量会不会不一样?
为了解答这些问题,这两年出现了几条代表性的路线。
一条是 Anthropic 把“影响函数(Influence Functions)”扩展到大模型。影响函数本来是统计学里的经典工具,大意是:如果把某个训练样本的权重调高一点点,看模型参数和输出会怎么变化。Anthropic 把这套方法扩展到了 50B 级别的 LLM,用它来分析不同能力(数学、编程、角色扮演)的“能力来源”。
另一条是 Daunce 用“不确定性”做归因。它的想法更工程一点:不再算复杂的二阶矩阵,而是围绕目标模型训练一批带轻微扰动的版本,看每个训练样本的 loss 在这些模型之间波动有多大,把这种“协方差”当作贡献度。波动大,说明这个样本对模型行为更关键。这套方法在 vision 和 LLM 上都做了实验,还用在 GPT 这类闭源模型上,对产业来说门槛更低。
第三条,是 DATE-LM 把各种归因方法拉到一个统一的评测场里。DATE-LM 本身是一个 benchmark,用来评估不同数据归因方法到底好不好用,任务包括训练数据选取、有害/偏见过滤、事实归因三类,用的都是 LLM 的真实场景。结论之一是:没有“一招鲜”的通吃方法,很多场景里,复杂归因方法和简单基线之间是 trade-off。
(这里顺便解释一下:DATE-LM 可以理解为“专门评估数据归因方法的一套标准试卷”,而不是新的归因算法。)
所以,你可以先把“训练数据归因”看成一种工程工具,而不是魔法:
它不会直接帮你训练一个更强的模型,
但会帮你回答:
这次模型考高分,大概率是被哪几类题“教”出来的。
Infra 这篇论文,就是把这套工具专门用在“数学 + 代码推理”上,逐层拆给你看。
三、推理时代的三个方法“旋钮”:架构、RL 和数据结构
如果抽象一点看,大家现在在“让模型更会推理”这件事上,大概在拧三只旋钮。
第一只是模型架构的旋钮。各种新的注意力结构、更长上下文、适合长链路推理的架构(比如最近经常被提到的一些 linear attention、DeltaNet 一类工作)都是在这里发力——目的都是让模型从算子层面更适合做长推理。
第二只是训练目标和强化学习(RL)的旋钮。RL(Reinforcement Learning)就是我们熟悉的强化学习,用奖励信号引导模型调整行为。例如 NVIDIA 的 AceReason-Nemotron:从一个蒸馏自 DeepSeek-R1 的 14B 模型出发,先做一轮监督微调(SFT,Supervised Fine-Tuning,可以理解为用人类标注好的输入-输出对再训一遍模型),然后完全通过 RL 去优化数学和代码推理,而不再额外堆数据。AceReason-Nemotron-14B 在 AIME24、AIME25、LiveCodeBench 这些基准上,相对起点模型都有两位数的提升,属于“固定参数、靠目标函数和策略把潜力榨出来”的代表。
第三只是本文的主角:数据结构与数据归因的旋钮。这一支上,前面说到的 Anthropic 影响函数、Daunce、DATE-LM,还有今天重点聊的 Infra 这篇论文,都在尝试回答一个问题:
在模型架构和训练框架基本确定的前提下,
换不同的数据结构(题目难度、领域配比、CoT 写法), 能否系统地看出:哪些组合最“值回算力”?
如果把推理模型的训练看成一个实验室,这三只旋钮基本上就是:
“脑子长成什么样”(架构),
“老师怎么给你打分和反馈”(RL / 训练目标),
以及“你到底做了什么题、怎么做的题”(数据结构)。
Infra 这篇论文,专挑第三只旋钮做文章。
四、Infra 想回答的核心问题:哪些数据,真的在教模型“会想”和“会写”?
在当前主流的推理模型 pipeline 里,大多数团队大概是这样做的:先用一个更强的老师模型(比如 R1 一类),给数学题和代码题生成带推理过程的 CoT(Chain-of-Thought);然后用这些“题目 + 推理过程”去做 SFT 或 RL,最后看 AIME、LiveCodeBench 这些指标是否提升。
但这里有几个一直靠经验拍脑袋的问题:数学和代码数据的比例怎么配?题目难度是多难算合适,是一股脑上高难题,还是难易混合?CoT 要保留多少“多余思考”,那些探索、验算要不要清洗掉?
Infra 做的事情,就是用一套影响函数框架,把这些问题拆开来、量化一下。它在 SFT 阶段选了几组代表场景:例如不带长 CoT 的数学数据,用 Llama3-8B 去学 MetaMathQA 之类的数据集;带长 CoT 的场景,则用 Qwen2.5-7B/14B 去学基于 DeepSeek-R1 蒸馏得到的 BS-17k 数据。
简单说,它做了三层“放大镜”:
-
在样本级别,看不同类型的数学题、代码题,对 AIME、LiveCodeBench 这些测试集的贡献度;
-
在序列级别,把 CoT 按“探索、验证、总结”等行为拆开,观察删掉其中一类句子后的影响;
-
在 token 级别,看哪些词、哪些标记在高影响力样本中反复出现,是否构成了某种“推理骨架”。
这些分析背后的数学技术都不轻,但对我们来说,可以只看它得出的“配方建议”。
五、关键发现:高难数学 + 简单代码,配出来的是一套“推理菜单”
对产业一线而言,Infra 最有意思的地方在于它得出的不是抽象理论,而是一套非常具体的“训练菜单”。
第一,高难数学题,是同时喂数学和代码的“逻辑增压器”。
论文的结果表明,在训练数据里加入真正多步推理、难度较高的数学题,不仅能明显提升 AIME 这类数学基准的表现,对代码推理(比如 LiveCodeBench)也有正向影响。
换成人话,就是:这些高难数学题在训练的是抽象逻辑能力,而这套“逻辑肌肉”在写代码时同样会被调用——你需要拆分问题、建立中间量、检查边界条件,不只是写语法。
第二,简单却结构清晰的代码题,是“语法和模式训练器”。
在代码数据这一侧,Infra 的结论有点反直觉:对 LiveCodeBench 这类评测来说,极高难度的代码题,边际贡献不一定最大。相反,那些难度适中、结构非常清楚、模式稳定的代码题,对模型的帮助更大。
用“带新人写代码”的直觉去理解就很自然:要一个新人能稳定写出可读的业务代码,重点不是每天发一题 ICPC 金牌题,而是持续练习“标准结构的程序”:函数怎么拆、错误怎么处理、日志怎么打、边界条件怎么写。这类题,才是在塑造模型对“结构化输出”的直觉。
第三,CoT 里那些看似啰嗦的“探索句子”,其实非常值钱。
Infra 把 CoT 拆成不同类型的行为:尝试不同解法的探索句子、算完结果再复核的验算句子、最后做总结和反思的句子。然后分别把某一类行为“剪掉”,看 AIME、LiveCodeBench 上的分数变化。结论是:如果把这些看起来啰嗦、甚至“已经算完还要想两步”的探索行为删掉,模型在数学、代码推理上的表现会有明显下降。
这对现在很多团队一味追求“短 CoT、高压缩”的做法,是一个清晰的提醒:训练时的“多想几步”“试错再修正”,确实在帮模型形成更稳的推理习惯,而不仅仅是浪费 token。如果把所有中间过程都压缩成一句“因此可得”,短期看起来更优雅,长期可能是在牺牲模型的泛化能力。
第四,在 token 层面,数学爱逻辑词,代码爱结构标记。
在 token 级分析中,论文发现:数学 CoT 中各种逻辑连接词(first, then, therefore, however, alternatively…)在高影响力样本中的权重非常高;而代码 CoT 中,结构性标记(Markdown 的 ``` 代码块、函数签名、括号、缩进等)贡献更大。
这其实把很多人的直觉用数据形式确认了一遍:
对数学推理来说,“话要讲顺、逻辑链清楚”很重要;对代码推理来说,“格式清晰、结构明朗”更重要。
最后,是一组硬指标:不加参数,只改配方,也能把成绩翻一倍。
在 Qwen2.5-7B-Instruct 这类 7B 参数的模型上,作者用一个非常朴素的策略——在数学上加高难题,在代码上多用简单、结构清晰的题,做了一个“难度翻转”的配比调整,结果是:AIME24 正确率从 10% 提升到 20%,LiveCodeBench 从 33.8% 提到 35.3%。
数字本身未必惊人,但它传递的信息很直接:在模型和训练框架都不变的前提下,单纯通过“重配训练数据结构”,就可以把推理能力明显拉一截。
六、理性看待局限:有价值的方向,还需要更多实证
作为一条还在快速演化中的方法线,训练数据归因和 Infra 这样的工作,既有清晰的工程价值,也有需要耐心验证的部分。
一方面,从 Anthropic 到 Daunce,再到 DATE-LM 和 Infra,我们已经看到:在大型语言模型上,影响函数类方法和基于不确定性的归因方法,确实能在一定程度上刻画“哪些训练样本更关键”。很多细节,比如高难数学与简单代码的配合、CoT 行为的保留与删减,在这篇论文给出的结果中,有相当清晰的信号。
另一方面,这些方法本身也还在迭代。影响函数依赖二阶近似,对模型规模和训练细节比较敏感;Daunce 这类方法需要多模型扰动,在算力和工程实现上有自己的成本;DATE-LM 也明确指出,不同方法在不同任务上各有长短,没有一劳永逸的“最优解”。未来还需要更多复现和横向比较,把今天这些漂亮的实验结果,稳稳地落在更广泛的模型和场景上。
从我的视角看,这些都不是什么坏消息。恰恰相反,它意味着我们正在形成一套更细腻的“数据工程工具箱”,而不是又多了一句新的口号。对做模型和做产品的人来说,重要的是保持一个温和的态度:既不过度神化一篇论文,也不要忽视它激活的方向。
七、落回产业:模型厂和普通企业,各自能做什么?
站在一线的角度,我会把这条线转成几条很具体的思路。
对做基础模型、云上推理产品的厂商来说,“数据配方 + RL”完全可以写进 roadmap,而不是只写“参数量”。规划下一代 R1-like 推理模型时,可以把过程拆成两步:
先用类似 Infra 的方法,在候选数据池里识别高价值题型和难度组合,建立一份“数据红蓝榜”;
再用 AceReason 一类的 RL 配方,在这些关键区域内挖掘最后那几十分。
对外讲产品,也可以从“我们烧了多少 A100 小时”变成“我们如何设计题库和推理过程”,讲清楚为什么要高难数学配简单代码,为什么 CoT 里要保留探索,而不是一味压缩。
对普通企业和应用团队来说,不需要自己上手搞那些复杂的算法实验,只要借用这些研究给出的方向,从几件成本很低的小动作开始就够了。
比如,在训练样本里刻意加入真正需要多步逻辑的“难题”,而不是只有 FAQ;在写 CoT 或示范答案时,允许出现“尝试—修正—确认”的过程,而不是只留最后一句“因此”;在文档和提示词里,有意识地使用逻辑连接词和结构化标记,让模型更容易抓住思路和格式。
更重要的是,在采购模型或者和供应商讨论“我们想要一个会推理的模型”时,可以多问一句:
-
你们在数据结构设计上做了什么?
-
有没有对不同题型、难度、CoT 风格做过系统区分和评估?
-
有没有用类似 DATE-LM 的基准去核查数据归因方法?
这些问题不一定会立即得到详尽答案,但会逼迫对方在“数据配方”上给出更清晰的产品叙事,而不是只报一个模型名字和参数量。
边界层笔记:我从这条线里得到的三个启发
对我自己来说,这条线带来的启发大概有三点。
第一,推理能力已经不只是“架构问题”,更是“数据结构问题”。 架构当然重要,但现在越来越清楚的是:题库怎么选、难度如何分布、推理过程怎么写,至少和“模型有多大”一样重要。
第二,“高难 + 低难”的组合,是一种非常值得抄的配方。 不只是在数学和代码上,任何需要推理的领域都可以尝试这样的组合:用少量高难题拉逻辑上限,用大量结构清晰的中低难题打输出稳定性。
第三,数据归因,更像是一种长期运营工具,而不是短期刷榜工具。 它给团队提供了一个新视角:不只是看一次评测分数高不高,而是去理解——哪些数据是这次成功背后的“关键样本”,下一个版本,我们能否更有针对性地放大这些部分。
延伸阅读:如果你想顺着这个方向往下看
如果这篇文章勾起了你对“推理数据配方”和“训练数据归因”的兴趣,可以按下面几个方向往下翻:
如果你想先把本文主角看完整,可以直接读 NeurIPS 论文(https://arxiv.org/abs/2505.19949?utm_source=chatgpt.com ):
Siqi Kou, Qingyuan Tian, Hanwen Xu, Zihao Zeng, Zhijie Deng.
Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions. 上海交通大学团队,对数学 + 代码推理数据做的系统归因分析。
如果你想了解影响函数在大模型上的整体用法,可以看 Anthropic 的工作 Studying Large Language Model Generalization with Influence Functions,这是把影响函数真正推上 50B 级 LLM 的早期代表。
如果你更关心“不确定性视角”的归因方法,可以看 Daunce: Data Attribution through Uncertainty Estimation,用一组扰动模型 + loss 协方差来刻画训练样本的重要性。
如果你想知道各种归因方法到底表现如何,可以看 DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models,Cathy Jiao 等人给出的统一评测场,在多种任务上比较了现有方法。
如果你对“数据配方 + RL”这一整套推理路线感兴趣,可以结合 NVIDIA 的 AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning 及其后续版本资料,一起看 RL 如何在既有模型基础上,把数学和代码推理进一步打磨出来。
✍️ 科里笔记 Coralyx Notes
Written by 科里(Coralyx),发表于「边界层」
如果你在一线做模型、做平台、做应用,已经在实践自己的“推理数据配方”,也欢迎在评论区分享一些经验——以后在这里可以继续把这些零散的实践,总结成更系统的框架。
如果想联系论文作者讨论,也可以后台给我留言。
更多推荐



所有评论(0)