大模型思维链揭秘：原来 LLM 靠这两招学会推理，长思考真能变聪明！

表层结构知识：通过上下文学习快速习得的推理步骤格式，表现为对特定连接词和句式的模仿深层逻辑知识：从预训练数据中习得的领域规则和推理模式，决定了推理的正确性散点图直观展示了推理动词数量与准确率的强相关性：在三个不同规模的模型（LLaMA3-8B、Gemma2-9B、Gemma2-27B）上，推理动词数量与准确率均呈现正相关，证实深层逻辑知识对推理性能的关键作用。

M桐M

799人浏览 · 2025-09-19 13:54:15

M桐M · 2025-09-19 13:54:15 发布

摘要：思维链推理已成为增强模型推理能力的关键方法。尽管人们对思维链推理的兴趣日益浓厚，但其潜在机制仍不明确。本文从上下文学习与预训练先验的双重关系角度，探究思维链推理的工作机制。首先，我们对推理过程进行细粒度的词汇级分析，以考察模型的推理行为。然后，通过逐步引入含噪示例，研究模型如何平衡预训练先验与错误的上下文信息。最后，我们探究提示工程是否能诱导大型语言模型进行慢速思考。大量实验揭示了三个关键发现：（1）模型不仅能快速学习词汇层面的推理结构，还能掌握更深层次的逻辑推理模式，但严重依赖预训练先验；（2）提供充足的示例会使模型的决策重心从预训练先验转向上下文信号，而误导性提示会引入不稳定性；（3）长思维链提示能诱导模型生成更长的推理链，进而提升其在下游任务中的性能。

论文标题: "Rethinking the Chain-of-Thought: The Roles of In-Context Learning and Pretrained Priors"
作者: "Hao Yang, Zhiyu Yang, Yunjie Zhang"
会议/期刊: "arXiv preprint arXiv:2509.01236"
发表年份: 2025
原文链接: "https://arxiv.org/pdf/2509.01236"
关键词: ["思维链推理", "上下文学习", "预训练先验", "提示工程", "大语言模型"]

核心要点：该文章研究揭示，思维链（CoT）推理的核心优势源于预训练先验与上下文学习的协同作用，而非单一机制，这一发现为优化大语言模型推理性能提供了全新视角。

欢迎大家关注我的公众号：大模型论文研习社
往期回顾：大模型也会 “脑补” 了！Mirage 框架解锁多模态推理新范式，无需生成像素图性能还暴涨

思维链推理的黑匣子：为什么我们需要重新思考CoT的工作机制？

自思维链（Chain-of-Thought, CoT）推理方法问世以来，它已成为提升大语言模型（LLM）复杂任务能力的关键技术。通过引导模型生成中间推理步骤，CoT显著提高了数学问题解决、逻辑推理和代码生成等任务的性能。然而，这一机制背后的真正原理长期以来笼罩在迷雾中：模型究竟是依赖于预训练时习得的知识（预训练先验），还是通过上下文学习（In-Context Learning）从示例中获取推理模式？

现有方法的痛点主要集中在三个方面：