别再让AI瞎思考！腾讯R-4B双模退火技术，让大模型“聪明“思考不浪费token！

腾讯混元R-4B是首个实现"自动思考"的开源多模态大模型。通过双模式退火训练和双模式策略优化技术，模型能自主判断任务复杂度，简单问题直接回答，复杂问题开启推理链。实验表明，R-4B-RL在保持高性能的同时显著提升token效率，在25个多样化基准测试上达到或接近SOTA水平，实现了"知道什么时候应该思考"的智能决策能力。

大靠山

432人浏览 · 2025-12-25 17:51:59

大靠山 · 2025-12-25 17:51:59 发布

2025年，读者在日常使用豆包、deepseek等APP时，应该有注意到“深度思考”已成为toC大模型的标配选项，但手动启停的深度思考不是那么“智能”。

图1. “深度思考”应对简单问题时的思考过程是token浪费

图2. 理想情况下，应由模型自动决定是否进行思考而不是用户手动指定

以笔者有限的认知，截止25年底，真正实现大模型"autothinking"的主流模型有：快手的KAT V1与Keye-VL系列、OpenAI的GPT-5系列、腾讯混元TurboS系列、以及本文要介绍的腾讯混元R-4B，R-4B也是上述模型中唯二的开源多模态大模型。
Keye-VL系列两个版本前序博客有介绍：[Kwai Keye-VL 系列 (v1.0/1.5) 深度技术解读]

0. 引言

当前 MLLM 的低效，主要来自：
对所有任务都采用链式思考（CoT）推理 —— 即便任务本身并不需要思考。

白话一些，为了提升模型回答问题的“靠谱”程度，“深度思考”模式引入了大量冗余推理。这一点，甚至脱口秀选手也会吐槽：

论文 R-4B 的目标是构造一种模型，使其能够：

自动判断是否需要思考
在简单问题上快速直接回答
在复杂问题上主动开启推理链
无需外部复杂度标签或额外模型(业内主流形态)

核心方法：

Bi-Mode Annealing（双模式退火） + Bi-Mode Policy Optimization（双模式策略强化学习）
教会模型“何时思考、为何思考、思考多少”。

1. 模型整体结构

Image → SigLIP2-So400m → MLP Projector → Qwen3-4B Backbone → Bi-Mode Output

Backbone: Qwen3-4B-Instruct
视觉编码器: SigLIP2 So400m
对齐模块: 2 层 MLP
输出模式：

Non-Thinking: 直接回答
Thinking: 生成可见或隐式的思考链 + 最终答案

模型结构设计和pretrain阶段与主流MLM类似，不展开介绍。

2. 数据构建

论文采用两个互补机制构建「是否需要思考」数据，其中论文把主观任务数据构建过程称为基于难度的启发式策略，客观任务数据构建过程称为基于性能的启发式策略。

图3. 基于启发式策略的双模数据生成流程

图4. 双模数据分布，每种任务都包含thinking/none thinking 数据

2.1 主观任务（Subjective Qs）

使用一个强大模型（如 GPT-4o）通过 prompt 生成：

任务复杂度
所需推理深度
Reasoning / Non-Reasoning 分类

2.2 客观任务（Objective Qs）

使用 offline hard mining：

对每个样本让 base 模型生成 N=8 个尝试答案
全错 → Difficult → reasoning
至少一个对 → Easy → non-reasoning

论文构建了一个双模态的混合数据集，利用Qwen2.5-32B-VL作为标注工具对数据按模态划分：

Thinking Mode 数据（System 2）：针对数学、几何、复杂图表任务。

格式：<think> [详细的视觉感知与逻辑推演步骤] </think> <answer> [答案] </answer>
标签来源：利用 VL Model(seed1.5 vl) 生成高质量 CoT。

• Non-Thinking Mode 数据（System 1）：针对简单 OCR、物体识别、日常对话。

格式：<think></think> <answer> [直接答案] </answer>
关键点：保留 <think> 标签但置空。这一设计至关重要，在确保标签格式统一的同时，它告诉模型：“这个问题，思考步骤为空。”

笔者认为：主观任务缺乏唯一ground truth，难以自动评估结果的准确性，根据现有模型池回答结果的推理深度作为Reasoning/Non-Reasoning分类依据；客观任务拥有ground truth(路径不唯一)，根据现有模型池回答结果的准确性统计结果，作为Reasoning/Non-Reasoning分类依据。数据构建流程的粒度可能粗糙一些，但也是业内主流的折中做法。

➡️ 数据构建流程不依赖外部标签，完全自动化(其实包含大量的数据清洗、核验、整理工作，文中介绍不多)。

3. 训练方法：论文核心创新点

训练(本文中的训练指post-training)分两阶段：

3.1 阶段一：Bi-Mode Annealing（双模式退火）

目标：

让模型学习 两套能力：思考与不思考
保证两种模式都被模型理解与习得

步骤：

构建统一格式数据（包含 <thinking> ... </thinking>）
同时训练：

Reasoning 数据 → 输出带思考链
Non-reasoning 数据 → 输出直接答案

随着训练过程推进，逐步增加思考样本比例
→ 退火策略，让模型适应复杂推理

阶段一结果模型：R-4B-Base

论文实验指出：

R-4B-Base 具备基础的两模式能力
但 倾向不思考（mode atrophy）
→ 论文中仅提及这一现象，并未做解释与量化消融实验。笔者可以从SFT的局限性、建模数据特征分布等角度思考是否能解释该现象。

双模“退火”并非指学习率调整，而是指能力分布的塑造。通过在训练中混合这两类数据，模型学会了两种路径。然而，仅靠 SFT，模型往往会偏向于某一种模式（Mode Collapse），论文指出，在开启auto thinking模式后SFT得到的R-4B base模型倾向于直接输出结果而不思考。这说明base模型欠缺合理启停thinking模式的能力。

因此需要第二阶段RL继续优化“何时进入思考模式”。

3.2 阶段二：Bi-Mode Policy Optimization（BPO）强化学习

论文最具创新性的部分。

图5. 双模policy优化-BPO框架示意图

关键理念：

每个输入都生成 two-rollout：

thinking rollout
non-thinking rollout

计算两者的 reward（论文选用rule based reward，但未开源）
让模型学习：“哪个更好，就更常用哪个”

训练步骤：

two-rollout generation
对同一个输入生成两条输出路径。
reward 计算
论文使用 简单正确性奖励（无需复杂 reward engineering，泛化更好）

只有 correctness 才影响 reward，因此模型不会盲目偏好“长思考链”

advantage 计算

对两模式分别计算 advantage
目标：鼓励期望验证正确的那一条模式

KL 正则化
防止策略崩溃（始终思考或从不思考）

BPO目标函数设计：

BPO 的目标是优化策略模型（即 R-4B-RL 的决策策略），使其能根据输入查询的复杂度，自适应选择最优响应模式（思考/非思考）。目标函数定义如下：

其中，关键变量定义：

表示「思考模式」响应样本，表示「非思考模式」响应样本；为单模式样本数量，故总样本数为（两种模式各个）。
对所有输入查询（服从查询分布）的期望，确保优化覆盖通用场景。
样本的奖励值（论文采用简单规则化奖励，仅来自数学领域但具备跨领域通用性）。
样本的优势函数（Advantage Function），计算方式遵循 GRPO 框架，衡量当前策略下该样本的「额外价值」。
奖励裁剪系数（超参），控制奖励的极端值范围。
KL 散度惩罚系数（超参），平衡策略更新幅度与稳定性。
参考策略（即 BPO 训练前的 R-4B-Base 策略），用于限制策略更新幅度。

BPO目标函数拆解：

BPO 目标函数的设计围绕「双模式平衡优化」「训练稳定性」「简化奖励依赖」三个核心需求，各组件的功能如下：

1. 期望项：保证通用场景覆盖

作用：对所有可能的输入查询求期望，避免优化仅偏向特定类型的查询（如仅优化数学推理或仅优化简单问答），确保模型在通用领域都能自适应选择模式。
设计逻辑：BPO 的核心目标是「通用自动思考」，而非针对单一任务，因此需通过分布期望确保优化的泛化性。

2. 平均化系数：强制双模式样本均衡

作用：将个样本（个思考模式 + 个非思考模式）的贡献平均化，确保两种模式在优化中拥有同等权重。
设计逻辑：传统 RL 易因样本分布不均衡、超参设计不合理等原因导致「模式坍塌」（如偏向非思考模式，这类问题是影响autothinking模型落地的重要因素之一），BPO 通过固定双模式样本数量比（1:1）和平均化系数，从优化源头避免模式偏好。

3. 函数：稳定奖励信号，避免极端值干扰

内部两部分解析：

第一部分：原始奖励与优势函数的乘积，直接反映「该样本对策略优化的价值」—— 若（任务表现）和（相对于参考策略的提升）均为正，则推动策略向该模式倾斜。
第二部分：对奖励进行裁剪，限制其范围在内。

作用：避免极端奖励（如异常高/低的任务得分）导致策略更新震荡，提升训练稳定性。这里实际借鉴了 PPO 的「clipped surrogate 目标」核心思想，但针对双模式场景优化了样本分布。
由于论文中部分超参取值未指明，BPO源码也未开源，本文不做过度解读，可参考字节seed开源的verl repo。

4. KL 散度正则项：防止策略突变与模式坍塌

作用：惩罚优化后的策略与参考策略（R-4B-Base）的差异过大，确保策略更新是「渐进式」的，而非跳跃式突变。
设计逻辑：

参考策略已通过双模式退火具备基础的思考/非思考能力，BPO 的目标是「优化模式选择决策」而非「重构能力」。
KL 惩罚可避免模型为追求高奖励而极端偏向某一种模式（如对所有查询都启用思考模式），从而维持双模式的自适应平衡。

的作用：控制惩罚强度—— 越大，策略更新越保守；过小则可能导致模式坍塌。

5. 双模式样本：实现「对比式优化」

作用：通过明确区分思考模式（）和非思考模式（）的样本，强制策略在同一查询下对比两种模式的效果，从而学习「何时该思考，何时该直接响应」。
设计逻辑：BPO 的核心创新是「双模式 rollouts」—— 对每个查询，模型必须同时生成两种模式的响应并参与优化。这一设计使得策略无需依赖「查询复杂度标注」，而是通过直接对比两种模式的奖励和优势，自主学习模式选择规则。

阶段二结果：R-4B-RL

论文强调其行为表现：

能“自我调节”思考
更符合 token-efficiency
复杂任务显著更强
简单任务有效减少思考链

4. 实验流程（论文关键内容强化）

4.1 基准测试（25 个 benchmark）

benchmark测试集覆盖：

通用视觉VQA（MMMU, MMStar, RealWorldQA等）
OCR & 表格 & 图表(AI2D，DocVQA等)
视觉感知与计数（OCRBench，CountBench等）
数学推理（MathVision，MathVerse-Vision等）

diverse benchamrks也是为了凸显R-4B的泛化能力，与BPO中的“simple reward" 设计呼应。

5. 实验结果

5.1 R-4B-Base vs R-4B-RL

图6. reasoning benchmarks上 RL-Base模型精度对照

结论：

能力	Base	RL	论文结论
两模式技能	✔	✔	Base 已掌握思考/非思考
思考触发策略	❌ 经常不思考	✔ 触发稳定	RL 大幅改善 mode atrophy
推理任务性能	中等	明显优于 Base	RL 显著提升数学与逻辑推理
简单任务效率	易错	正确率高	RL 能够在简单任务上减少思考链
Token Efficiency	低	高	RL 实现更平衡 token 使用

论文强调最重要的一点：

R-4B-RL 是真正具备“自动思考”能力的版本，而 Base 只是具备两模式模式。

5.2 与同规模模型对比

图7. 25个diverse benchmarks上R-4B Base/RL与同量级模型精度对照

论文显示 R-4B-RL：

在 MMMU-val / MMStar / ChartQA / MathVista 等多个 benchmark 上达到或接近 SOTA
与比自己大 2× 的模型（如 8B MLLM）在推理类任务上持平或更优

5.3 Token-Efficiency

图8. diverse benchmarks上R-4B RL在3种模式下平均输出tokens数量对照

论文提供了关键实验证据表明：

• R-4B-RL 在 简单任务上减少 reasoning token
例如 OCRBench，auto-66 tokens，non-57 tokens,thinking-394 tokens，简单任务token能效接近non-thinking模式，同时performance稳定超过non-thinking模式；
• 在 复杂任务上增加 reasoning token 并提高正确率
例如 MathVista和 WeMath， auto-996 to 1279 tokens, thinking-1136 to 1382 tokens，同时performance稳定超过thinking模式。
• 对照实验说明模型成功学会了自动判断复杂度，并实现了高token能效

6. Ablation / 消融实验（论文有明确讨论）

论文进行两个关键消融：

(1) 去掉双模式退火 → 模型无法学会两套基本能力

图9. 双模退火消融

表现：

reasoning data+thinking mode表现最优
mix data+non thinking mode表现最差

(2) 去掉 BPO → 模型严重偏向 non-thinking

图10. BPO消融-Base model与RL model对照

表现：

reasoning benchmark-三种模式下，RL模型均稳定超过base模型
reasoning benchmark-RL和base模型表现稳定呈现：thinking>auto thinking>non thinking

7. 总结：原论文的整体贡献（增强版）

论文贡献明确分三点：

贡献 1：双模式退火训练体系（BMA）

让模型掌握 thinking / non-thinking 两种能力。

贡献 2：双模式强化学习（BPO）

无需复杂奖励机制，模型可自主决策 何时思考、如何思考。

贡献 3：4B 模型实现与更大模型匹敌的大规模推理能力

特别是在数学和逻辑推理中表现亮眼。

8. 结语

R-4B 系列提供了一种全新的 MLLM 能力：

不仅是“能思考”，而是“知道什么时候应该思考”。

论文中消融实验比较充分，除了论证R-4B模型效果，也印证了reasoning/Non reasoning、SFT/RL在MLM模型面向不同任务时的调优策略与效果。

笔者推荐该论文，主要是因为在AIGC相关应用中有观察到R-4B的caption能力和能效突出。

美中不足：

论文只放出了权重，没开源训练源码和数据集
没有做scaling，本文核心优化项是否对其他模型通用待考证

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述