给大模型一本参考书,它反而考得更差了?DeR2揭示RAG推理的致命盲区

你拿着一本教科书去参加开卷考试,结果分数比闭卷还低。听起来荒谬?但这恰恰是当前最强大语言模型在RAG场景下的真实表现。DeR2用一个精心设计的"沙盒"证明了这件事,并找到了两个根源。

  • 论文:DeR2: Decoupled Retrieval and Reasoning Benchmark for Retrieval-Augmented Reasoning Assessment
  • 链接:https://arxiv.org/abs/2601.21937
  • 作者:Shuangshuang Ying 等(M-A-P & ByteDance Seed,指导教师来自哈工大深圳、复旦、北大)
  • 代码/数据:https://github.com/M-A-P-MARL/DeR2

一句话总结:DeR2构建了一个将检索能力和推理能力完全解耦的评测沙盒,通过四种控制变量的设定测试14个前沿模型,发现一个反直觉现象——提供完整文档后模型平均得分(51.1%)低于只给指令时(55.9%),并将原因归结为"推理模式切换脆弱性"和"结构性概念误用"两大病灶。


🔬 问题出在哪:现有RAG评测的两个根本缺陷

要理解DeR2在做什么,先看看现有RAG评测是怎么做的。

闭卷问答(Closed-book QA):直接问模型一个问题,看它能不能从参数记忆里找到答案。这只能测模型"记没记住",完全无法评估推理能力。你问一个2024年发表的定理推导,模型训练数据里没有,它当然答不出来——但这不代表它推理能力差,只是它没见过这个知识。

标准RAG评测:给模型一个问题+一堆检索到的文档,让它生成答案。模型答错了——是因为检索到的文档不相关(检索失败)?还是相关文档给到了但模型推理出错(推理失败)?你分不清。检索和推理能力纠缠在一起,诊断不出具体的失败原因。

图1:三种评测范式对比

图1:(a) 闭卷QA只评估内在知识;(b) 标准RAG流水线中检索与推理纠缠不清,失败时无法归因;© DeR2的解耦方案——通过四种控制设定(仅指令、仅概念、仅相关文档、完整文档集),把检索和推理的影响逐一分离。

DeR2的想法很直接:既然纠缠分不清,那就设计一个"沙盒",把检索和推理彻底拆开来单独测。


🏗️ DeR2的设计:一个四档控制变量的实验沙盒

DeR2的核心是四种评测设定,每种设定控制了不同程度的信息输入:

Setting 1 — Instruction-only(仅指令):只给模型题目描述,不给任何参考文档。这测的是模型的"参数记忆"——它训练数据里见过类似的知识吗?

Setting 2 — Concepts-only(仅概念):给模型题目描述 + 解题所需的核心概念名称和定义。不给完整文档,只给"解这道题需要用到XXX定理、YYY方法"这样的概念清单。这是一个Oracle设定——如果模型拿到了准确的概念仍然做错,那就是纯粹的推理能力不足。

Setting 3 — Related-only(仅相关文档):给模型题目描述 + 与题目相关的论文文档,但不包含噪声文档。这模拟的是"完美检索"——检索系统恰好返回了所有相关文档。

Setting 4 — Full-set(完整文档集):给模型题目描述 + 相关文档 + 噪声文档。这模拟的是真实RAG场景——检索结果里既有有用的,也有不相关的干扰项。

图2:DeR2整体架构

图2:左半部分展示了现有评测的局限——闭卷QA只评估内在知识,RAG流水线中检索与推理纠缠无法归因。右半部分是DeR2沙盒的设计:输入由相关文档(含概念A/B)和噪声文档组成的混合文档集,通过四种控制设定分别测试,输出答案+推理链,最终精确定位推理模式切换失败和概念执行失败两类问题。

这四种设定的妙处在于它们形成了一个逻辑递进链

  • Setting 1 → Setting 2:加入概念后性能提升多少?= 概念知识对推理的增益
  • Setting 2 → Setting 3:从精确概念变成完整文档后性能变化如何?= 模型从文档中提取概念的能力
  • Setting 3 → Setting 4:加入噪声文档后性能下降多少?= 模型的抗干扰能力

特别地,论文定义了一个**检索损失(Retrieval Loss, RLoss)**指标:

RLoss = Score Concepts-only − Score Full-set \text{RLoss} = \text{Score}_{\text{Concepts-only}} - \text{Score}_{\text{Full-set}} RLoss=ScoreConcepts-onlyScoreFull-set

RLoss衡量的是:模型在"拿到精确概念"与"拿到完整文档集"之间的性能差距。这个差距越大,说明模型在真实RAG场景下的推理退化越严重。


📐 数据怎么来的:一个高门槛的四步标注流程

DeR2的数据质量决定了它的评测结论是否可信。论文设计了一个相当严格的标注流程。

图3:数据构建流程

图3:四步流程——Step 1: 从2023-2025年的arXiv论文中筛选源文献,标注员构造挑战性问题并经过审核反馈;Step 2: 构建指令/概念/答案/推理链四元组;Step 3: 难度校准——无概念时模型必须连续3次失败,有概念时至少1次成功;Step 4: 收集相关文档和噪声文档。

Step 1:选源论文。 所有问题基于2023-2025年发表的前沿理论论文。为什么要限制年份?为了防止参数记忆泄漏——如果题目基于2020年的经典论文,模型大概率在训练时见过,那测出来的就不是推理能力,而是记忆力。标注团队是来自985高校的博士生,每个人在自己的专业领域内出题。

Step 2:构建四元组。 每道题包含:Instruction(问题描述)、Concepts(解题需要的核心概念及定义)、Answer(标准答案)、CoT(完整的推理链)。这里的Concepts不是模糊的关键词,而是精确的定义+使用方法——这保证了Setting 2(Concepts-only)是一个真正的"金标准"Oracle。

Step 3:难度校准。 这一步是DeR2数据质量的关键保障。采用两阶段验证协议:

  1. 无概念必须失败:在Instruction-only设定下,模型必须连续3次回答错误。如果模型凭"记忆"就能答对,说明这道题对参数知识没有去掉依赖,需要替换。
  2. 有概念必须成功:在Concepts-only设定下,模型至少1次回答正确。如果拿到了精确概念还答不对,说明这道题本身的推理难度超出了模型能力范围,也不是好的评测题目。

用离线AI测试(GPT-4o等模型)来执行这个校准过程。通过双重筛选的题目才能进入最终数据集。

Step 4:收集文档集。 为每道题收集相关文档(包含解题概念的论文)和噪声文档(同领域但与解题无关的论文),构成完整的文档集。

图4:数据集统计分布

图4:外环是领域分布——覆盖理论计算机科学(TCS)、数学、信息论、理论化学/天体物理/物理、工程力学、生物、控制论、热力学/统计物理、电磁学/量子电动力学、地球力学/地球动力学、环境建模、计算材料、系统科学、交通流等16个学科。内环是答案类型分布——公式、结论、数值、判断题四类。

覆盖16个理论学科领域,答案类型包含公式推导、理论结论、数值计算和真假判断四类。这不是一般的NLP数据集——能出这种题的标注员本身就需要博士级别的专业知识。

图5:文档和概念的数量分布

图5:(a) 文档数量分布——每道题包含的相关文档、噪声文档和总文档数量直方图;(b) 概念数和推理步数的分布曲线——概念数集中在4-5个,推理步数集中在5-6步。


📊 实验结果:开卷反而考更差

论文评测了14个前沿模型,四种设定下的完整结果:

模型 Instruction-only Concepts-only Related-only Full-set RLoss
GPT-5.2-high 65.8 83.8 71.4 71.1 12.7
Gemini-3-Pro-Preview 64.2 80.3 56.3 53.7 26.6
Gemini-3-Flash-Preview 54.9 66.2 53.3 53.9 12.3
GPT-5.1-high 56.4 78.1 59.9 56.7 21.4
DeepSeek-V3.2-Exp-Thinking 56.2 80.6 56.0 55.3 25.3
Moonshot-kimi-k2-thinking 58.1 71.8 53.1 53.7 18.1
Gemini-2.5-Pro 56.1 77.3 53.4 49.8 27.5
GLM-4-6 56.2 75.1 53.4 48.1 27.0
QwenAPI-3-max-0923 56.6 76.1 52.3 51.0 25.1
Claude-Sonnet-4.5 55.2 74.5 45.3 44.2 30.3
Doubao-1.8-1228-high 50.2 74.8 47.4 46.4 28.4
DeepSeek-V3.1-terminus-thinking 53.4 70.2 45.3 44.0 26.2
Doubao-1.6-1015-high 50.2 67.2 41.5 39.5 27.7
Claude-Opus-4.1-thinking 49.3 80.3 53.3 47.9 32.4
平均 55.9 75.4 52.8 51.1 24.4

这张表里藏着几个非常值得深挖的发现。

发现一:给文档反而降分——推理模式切换脆弱性

看平均数据:Full-set(51.1%)< Instruction-only(55.9%)。14个模型中,绝大多数在拿到完整文档后成绩不升反降。

最夸张的例子是Gemini-3-Pro-Preview:Instruction-only拿到64.2%,Full-set跌到53.7%,掉了10.5个百分点。这意味着在真实RAG场景下,Gemini-3-Pro-Preview还不如"什么文档都不给"的闭卷表现。

GPT-5.2-high是唯一在Full-set下保持高性能的模型(71.1%),且RLoss最低之一(12.7),说明它在模式切换上相对稳健。

论文将这个现象命名为推理模式切换脆弱性(Mode Switching Fragility)——模型在"依赖参数记忆做推理"和"依赖外部文档做推理"之间切换时,推理质量会显著下降。它不是简单地"没看到有用信息",而是外部文档的引入干扰了模型原本的推理路径

发现二:概念能说对但执行做错——结构性概念误用

看Concepts-only列:平均75.4%。这说明模型在拿到精确概念时推理表现相当不错。但对比Full-set(51.1%)和Related-only(52.8%),差距达到了22-24个百分点。

论文分析了具体的失败案例,发现了一种典型的失败模式:模型能正确地说出概念名称,但无法将概念作为过程正确执行。 比如一道需要"拉格朗日对偶"的题,模型会在推理链中写出"使用拉格朗日对偶方法",但随后执行的步骤却是一个泛化的启发式模板,而不是这个具体问题需要的对偶变换步骤。

换个说法:模型知道"要用拉格朗日对偶",但不会"做拉格朗日对偶"。它把概念当成了一个标签贴在推理链上,而不是当成一组需要精确执行的操作步骤。

这就是结构性概念误用(Structural Concept Misuse)——概念被正确识别但错误实例化。

发现三:噪声的影响是非线性的

图6:噪声文档数量和概念数量与得分的关系

图6:(a) 噪声文档数量与得分的散点图——随噪声增加,多数模型得分下降,Claude-Opus-4.1-thinking和DeepSeek-V3.1下降最为显著;(b) 概念数量与得分的关系——需要的概念越多,得分越低,大部分模型呈负相关。

噪声文档对性能的损害不是简单的线性叠加。论文发现,少量噪声文档就能造成显著的性能下降,而进一步增加噪声文档数量后,额外的下降幅度反而变小。这暗示噪声文档改变了模型推理的初始拓扑结构——一旦模型在推理早期被噪声信息带偏,后续的推理轨迹就会不可逆地偏离正确路径。这不是一个简单的"信噪比"问题,而是推理路径的拓扑敏感性问题。

发现四:RLoss的巨大差异暴露了模型间的鲁棒性鸿沟

RLoss最低的是Gemini-3-Flash-Preview(12.3)和GPT-5.2-high(12.7),最高的是Claude-Opus-4.1-thinking(32.4)。32.4意味着什么?意味着Claude-Opus-4.1-thinking在从"拿到精确概念"切换到"拿到完整文档集"时,性能损失了近三分之一。

一个有意思的对比:Claude-Opus-4.1-thinking在Concepts-only设定下拿到80.3%(和GPT-5.2-high的83.8%接近),但Full-set下暴跌到47.9%(GPT-5.2-high是71.1%)。这两个模型的"纯推理能力"相差不大,但"在噪声中推理"的能力相差悬殊。


🧠 为什么会这样?两个层面的解释

浅层解释:注意力被稀释

给模型一堆文档后,它需要在长上下文中识别哪些信息有用、哪些是干扰。上下文变长意味着注意力权重被分散,模型可能把本该聚焦在关键概念上的"认知资源"浪费在了无关内容上。

但这个解释不够——如果只是注意力稀释,Related-only(没有噪声文档)的表现应该接近Concepts-only。实际上Related-only(52.8%)远低于Concepts-only(75.4%),说明问题不仅是"信息太多找不到"。

深层解释:推理策略的冲突

Instruction-only设定下,模型被迫使用参数化推理——它只能依靠训练中学到的知识和推理模式。这时候模型会调用一套相对稳定的"内部推理模板"。

一旦引入外部文档,模型需要切换到"文档驱动推理"模式——从文档中提取信息,与题目要求对齐,然后组合推理。问题在于,当前模型在这两种模式之间的切换机制很脆弱。文档的引入不是单纯地"添加信息",而是改变了整个推理的起点和路径。

具体来说:

  1. 模型在文档中找到了一些"看起来相关"的概念,就会放弃自己参数记忆中更准确的推理路径,转而尝试拼接文档中的信息
  2. 但文档中的概念表述可能与模型内部表征的格式不完全对齐,导致概念虽然被识别但无法被正确执行
  3. 噪声文档中的"伪相关"信息会进一步干扰概念提取和推理路径选择

💡 批判性思考

1. 数据集规模和领域偏向

论文覆盖了16个理论学科领域,但没有公布每个领域的题目数量分布。如果某些领域题目过少(比如交通流或环境建模),这些领域的评测结论可能缺乏统计显著性。此外,所有题目都来自"理论性"学科——纯工程、实验科学领域的推理模式可能与理论推导非常不同,DeR2的结论能否推广到这些领域是个问号。

2. 两阶段验证协议的盲区

两阶段校准要求"Instruction-only连续3次失败"+“Concepts-only至少1次成功”。但"3次失败"作为阈值够不够严格?如果一道题模型有20%的概率猜对,那连续3次失败的概率仍有51.2%——有近一半概率这道题其实不符合"模型不知道"的假设。更保守的做法是要求5次甚至更多次连续失败。

3. 评测模型的选择

14个模型全是API调用的闭源或半开源模型(如GPT-5.2、Gemini-3、Claude-Opus-4.1等)。这意味着:(a) 无法控制模型的解码参数(温度、采样策略等),这些参数对推理任务影响很大;(b) 闭源模型的版本更新可能导致评测结果不可复现;© 没有覆盖开源的7B/14B量级模型,无法回答"小模型是否有不同的失败模式"这个问题。

4. RLoss指标的解读需要谨慎

RLoss = Score(Concepts-only) - Score(Full-set) 是一个差值指标。但Concepts-only给的是人工精选的概念清单,Full-set给的是完整文档——两者的信息形式完全不同。RLoss大未必意味着模型"不会用文档",也可能只是说明"人工概念清单就是比完整文档更好用"。一个更公平的对比可能是:从完整文档中自动提取概念,与人工概念清单做对比。

5. 对RAG系统设计的实际启示

论文的发现对RAG工程有直接的指导意义:与其给模型灌入一堆检索到的原始文档,不如先做一层"概念提取"——从文档中抽出关键概念和定义,以结构化的形式喂给模型。Concepts-only(75.4%)和Full-set(51.1%)之间24个百分点的差距,说明"信息预处理"可能比"检索更多文档"重要得多。


📌 关键信息速查

项目 内容
标题 DeR2: Decoupled Retrieval and Reasoning Benchmark for Retrieval-Augmented Reasoning Assessment
核心贡献 构建解耦检索与推理能力的评测沙盒,四种控制变量设定
数据来源 2023-2025年arXiv理论论文,985高校博士生标注
覆盖领域 16个理论学科(TCS、数学、信息论、理论物理/化学/天文等)
答案类型 公式、结论、数值、判断
评测模型 14个前沿模型(GPT-5.2、Gemini-3-Pro/Flash、Claude-Opus-4.1-thinking等)
核心发现 Full-set平均51.1% < Instruction-only平均55.9%;RLoss平均24.4
最佳模型 GPT-5.2-high(Full-set 71.1%,RLoss 12.7)
最大RLoss Claude-Opus-4.1-thinking(32.4)
两大病灶 推理模式切换脆弱性 + 结构性概念误用
难度校准 两阶段验证:Instruction-only连续3次失败 + Concepts-only至少1次成功
代码 https://github.com/M-A-P-MARL/DeR2

如果觉得有用,欢迎点赞、在看、转发三连~

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐