推理模型循环的根本原因与解决之道：不是随机性太少，而是学得不对

摘要：研究发现推理模型在低温/贪心解码下容易陷入循环的根本原因在于训练阶段的系统性误差，而非随机性不足。主要机制包括风险规避（难学动作概率被摊薄）和时序相关误差（Transformer对错误具有自相关性）。实验表明，升温仅能暂时打断循环，无法纠正概率分布。解决方案应从训练阶段入手，包括数据增强、课程学习、架构改进和优化蒸馏策略等。研究还发现模型一旦进入循环会形成"自信飞轮"，进

进击的码农！

396人浏览 · 2026-01-10 16:39:24

进击的码农！ · 2026-01-10 16:39:24 发布

文章分析了推理模型在低温/贪心解码下循环的根本原因：一是风险规避机制，模型将难学动作的概率摊薄，使简单循环动作相对概率更高；二是时序相关误差，Transformer对错误有自相关性。升温仅能暂时打断循环，无法从根本上修正概率分布。真正解决方案需从训练阶段减少误差，包括数据增强、课程学习、架构改进和优化蒸馏策略等方法。

前几天，DeepSeek-R1的论文更新了,从22页增加到86页，干活慢慢：

精确的数据配方：数量（26k 数学、17k 代码）及制作方法
基础设施：vLLM + DualPipe 架构图
训练成本明细：约 29.4 万美元（R1-Zero 占用 198 张 H800 GPU·小时）
罕见披露“失败尝试”：PRM（过程奖励模型）为何失效
对比范围扩大：新增与 DS-V3、Claude、GPT-4o 的评测（此前仅对比 o1）
10 页安全报告：能力对齐与风险分析

https://arxiv.org/abs/2501.12948

而，今天重点要聊的是：推理模型（DeepSeek-R1、OpenThinker 等） 在低温（temperatures）/贪心解码下极易循环，根源不是随机性太少，而是学得不对：

MIT&微软等：为什么推理模型循环

难学动作被“摊薄”，简单循环动作被放大 → 风险规避式复读
Transformer 对“自己刚犯过的错”有记忆 → 时序相关错误复读
升温只能“治标”地打断循环，并不能“治本”地纠正概率分布。

先上证据：小模型比老师更爱复读

图1 统计了 OpenThinker 家族在 AIME 2024/2025 上的循环比例与平均链长。

1.5B 学生在 T=0 下 30% 响应出现 30-gram 重复 ≥20 次，而 32B 老师几乎为 0
升温到 1.0 后学生循环消失，但链长仍是老师的 1.5×——说明它只是靠随机“逃”出去，并没学会正确路径

现象全景：六条观察

图2 给出 9 款开源推理模型在 T=0 下的循环率（n=30, k=20）。

观察	一句话解释
① 所有模型都循环	低温+贪心=复读机
② 越大越不循环	容量→学习误差↓
③ 学生>>老师	蒸馏≠完美复制，误差被放大
④ 难题更易循环	“难学动作”更显著
⑤ Instruct 版很少循环	训练数据里缺少“反思/回溯”动作
⑥ 轻量 RL 没显著改善	误差来源与蒸馏类似

实验——星图随机游走

为排除语言复杂性，作者用星图+随机回程模拟 CoT：

节点：start → root → n 条链 → leaf（goal）
教师策略：70% 前进一步，30% 重置回 start
学生：12 层 Transformer，85 M 参数，从头训练

图3 示意星图结构，图4 给出训练结果。

→ 在“难”图 G(5,5) 上，T=0 时平均 一半 token 花在 start↔root 来回；升温可降循环，但链长仍是最优的 4×。

机制一：风险规避（Risk-Aversion）

定义：正确前进动作难学 → 模型把概率摊到 n 个“看起来差不多”的动作上 → 简单循环动作（reset）相对概率反而更高 → 贪心一直选 reset。
命题 1（文中给出证明）给出极端情况：
若教师给正确动作概率 1−p，给循环动作 p，而学生完全分不清 n 个正确动作，则 ML 解会把 1−p 均摊成 (1−p)/n，循环动作仍保持 p。只要 p > (1−p)/n，贪心就永远选循环。
→ 升温后偶尔“赌”一把，故能逃出，但并未修复概率分布。

机制二：时序相关误差（Temporally-Correlated Errors）

即使**没有“难学”**问题，Transformer 也会“重蹈覆辙”：

训练分布在某决策点均匀随机 → 学生学到“几乎均匀”+ 微小误差
误差随时间自相关：第一次稍微偏好 child-2，第二次仍更可能选 child-2
低温度下被放大 → 永远走同一条错路 → 循环

图5 实验显示，T=0 时同一 child 连续两次被赋予最高概率的比例高达 **96.7%**（理想应≤20%）。

作者尝试在训练分布里加“margin”惩罚已访问节点，能把相关性降到 61%，但仍未根除。

催化剂：越复读越自信

图15 跟踪两条真实循环 trace 的最大 next-token 概率：

一旦进入循环，模型对“继续复读”的概率迅速飙到 0.99，形成自信飞轮——这是预训练语料里偶发重复序列带来的先验。
作者在玩具任务里人工注入 0.1% 的确定性循环数据，就能把低温度下的循环次数翻三倍，并把准确率打到接近 0（图16-19）。

解决方案

方向	思路	可行性
① 训练时干预	针对学生高 loss 位置，数据增强加“提示”或中间标签	已验证可减硬度
② 课程学习	先易后难，或逐步加大“禁止重复”margin	待实验
③ 架构改进	用能打破对称性的新结构（如基于子图的 GNN 层）	有初步工作
④ 解码策略	重复惩罚、对比搜索、n-gram 阻塞	工程上最省事
⑤ 蒸馏方法	不直接模仿 teacher 轨迹，而模仿“去循环+加提示”后的轨迹	作者最看好

最后

循环不是“温度太低”的锅，而是学生分布与教师分布存在系统性误差
误差来源：
a) 难学动作被摊薄 → 风险规避循环
b) Transformer 对错误有自相关性 → 时序复读循环
升温=止痛药，** exploration 不能替代学习**
真正解决要靠训练阶段减少误差：更好的数据、课程、架构与蒸馏策略

如何系统的学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述