推理模型循环的根本原因与解决之道:不是随机性太少,而是学得不对
摘要:研究发现推理模型在低温/贪心解码下容易陷入循环的根本原因在于训练阶段的系统性误差,而非随机性不足。主要机制包括风险规避(难学动作概率被摊薄)和时序相关误差(Transformer对错误具有自相关性)。实验表明,升温仅能暂时打断循环,无法纠正概率分布。解决方案应从训练阶段入手,包括数据增强、课程学习、架构改进和优化蒸馏策略等。研究还发现模型一旦进入循环会形成"自信飞轮",进
文章分析了推理模型在低温/贪心解码下循环的根本原因:一是风险规避机制,模型将难学动作的概率摊薄,使简单循环动作相对概率更高;二是时序相关误差,Transformer对错误有自相关性。升温仅能暂时打断循环,无法从根本上修正概率分布。真正解决方案需从训练阶段减少误差,包括数据增强、课程学习、架构改进和优化蒸馏策略等方法。
前几天,DeepSeek-R1的论文更新了,从22页增加到86页,干活慢慢:
- 精确的数据配方:数量(26k 数学、17k 代码)及制作方法
- 基础设施:vLLM + DualPipe 架构图
- 训练成本明细:约 29.4 万美元(R1-Zero 占用 198 张 H800 GPU·小时)
- 罕见披露“失败尝试”:PRM(过程奖励模型)为何失效
- 对比范围扩大:新增与 DS-V3、Claude、GPT-4o 的评测(此前仅对比 o1)
- 10 页安全报告:能力对齐与风险分析

https://arxiv.org/abs/2501.12948
而,今天重点要聊的是:推理模型(DeepSeek-R1、OpenThinker 等) 在低温(temperatures)/贪心解码下极易循环,根源不是随机性太少,而是学得不对:
MIT&微软等:为什么推理模型循环
- 难学动作被“摊薄”,简单循环动作被放大 → 风险规避式复读
- Transformer 对“自己刚犯过的错”有记忆 → 时序相关错误复读
升温只能“治标”地打断循环,并不能“治本”地纠正概率分布。
先上证据:小模型比老师更爱复读
图1 统计了 OpenThinker 家族在 AIME 2024/2025 上的循环比例与平均链长。

- 1.5B 学生在 T=0 下 30% 响应出现 30-gram 重复 ≥20 次,而 32B 老师几乎为 0
- 升温到 1.0 后学生循环消失,但链长仍是老师的 1.5×——说明它只是靠随机“逃”出去,并没学会正确路径
现象全景:六条观察
图2 给出 9 款开源推理模型在 T=0 下的循环率(n=30, k=20)。

| 观察 | 一句话解释 |
|---|---|
| ① 所有模型都循环 | 低温+贪心=复读机 |
| ② 越大越不循环 | 容量→学习误差↓ |
| ③ 学生>>老师 | 蒸馏≠完美复制,误差被放大 |
| ④ 难题更易循环 | “难学动作”更显著 |
| ⑤ Instruct 版很少循环 | 训练数据里缺少“反思/回溯”动作 |
| ⑥ 轻量 RL 没显著改善 | 误差来源与蒸馏类似 |
实验——星图随机游走
为排除语言复杂性,作者用星图+随机回程模拟 CoT:
- 节点:start → root → n 条链 → leaf(goal)
- 教师策略:70% 前进一步,30% 重置回 start
- 学生:12 层 Transformer,85 M 参数,从头训练
图3 示意星图结构,图4 给出训练结果。


→ 在“难”图 G(5,5) 上,T=0 时平均 一半 token 花在 start↔root 来回;升温可降循环,但链长仍是最优的 4×。
机制一:风险规避(Risk-Aversion)
定义:正确前进动作难学 → 模型把概率摊到 n 个“看起来差不多”的动作上 → 简单循环动作(reset)相对概率反而更高 → 贪心一直选 reset。
命题 1(文中给出证明)给出极端情况:
若教师给正确动作概率 1−p,给循环动作 p,而学生完全分不清 n 个正确动作,则 ML 解会把 1−p 均摊成 (1−p)/n,循环动作仍保持 p。只要 p > (1−p)/n,贪心就永远选循环。
→ 升温后偶尔“赌”一把,故能逃出,但并未修复概率分布。
机制二:时序相关误差(Temporally-Correlated Errors)
即使**没有“难学”**问题,Transformer 也会“重蹈覆辙”:
- 训练分布在某决策点均匀随机 → 学生学到“几乎均匀”+ 微小误差
- 误差随时间自相关:第一次稍微偏好 child-2,第二次仍更可能选 child-2
- 低温度下被放大 → 永远走同一条错路 → 循环
图5 实验显示,T=0 时同一 child 连续两次被赋予最高概率的比例高达 **96.7%**(理想应≤20%)。

作者尝试在训练分布里加“margin”惩罚已访问节点,能把相关性降到 61%,但仍未根除。
催化剂:越复读越自信
图15 跟踪两条真实循环 trace 的最大 next-token 概率:

一旦进入循环,模型对“继续复读”的概率迅速飙到 0.99,形成自信飞轮——这是预训练语料里偶发重复序列带来的先验。
作者在玩具任务里人工注入 0.1% 的确定性循环数据,就能把低温度下的循环次数翻三倍,并把准确率打到接近 0(图16-19)。
解决方案
| 方向 | 思路 | 可行性 |
|---|---|---|
| ① 训练时干预 | 针对学生高 loss 位置,数据增强加“提示”或中间标签 | 已验证可减硬度 |
| ② 课程学习 | 先易后难,或逐步加大“禁止重复”margin | 待实验 |
| ③ 架构改进 | 用能打破对称性的新结构(如基于子图的 GNN 层) | 有初步工作 |
| ④ 解码策略 | 重复惩罚、对比搜索、n-gram 阻塞 | 工程上最省事 |
| ⑤ 蒸馏方法 | 不直接模仿 teacher 轨迹,而模仿“去循环+加提示”后的轨迹 | 作者最看好 |
最后
- 循环不是“温度太低”的锅,而是学生分布与教师分布存在系统性误差
- 误差来源:
a) 难学动作被摊薄 → 风险规避循环
b) Transformer 对错误有自相关性 → 时序复读循环 - 升温=止痛药,** exploration 不能替代学习**
- 真正解决要靠训练阶段减少误差:更好的数据、课程、架构与蒸馏策略
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)