论文概述ReMA Learning to Meta-think for LLMs with Multi-agent Reinforcement Learning

ReMA 通过分离元思考与推理过程，结合 MARL 实现了 LLMs 推理能力的增强，在泛化性、探索效率和可解释性上有显著优势。扩展到多轮设置后，可处理更复杂的长程推理任务。未来可进一步应用于多智能体交互场景，并深入探索多轮强化学习的动态机制。ReMA（Reinforced Meta-thinking Agents）通过多智能体强化学习（MARL）分离元思考与推理过程，实现更高效的协作优化。代码开

辉哥大数据

2416人浏览 · 2025-08-06 16:29:34

辉哥大数据 · 2025-08-06 16:29:34 发布

论文题目《ReMA：基于多智能体强化学习增强 LLMs 元思考能力的框架总结》

一、研究背景与问题

大型语言模型（LLMs）在推理任务中的性能提升依赖于元思考能力（即 “对思考的思考”），但现有方法存在局限：

构造式监督方法（如基于模板的微调）灵活性不足，泛化到分布外（OOD）任务时性能不稳定；
单智能体强化学习（SARL）需在单次前向传播中同时学习元思考和推理，导致探索效率低、易收敛到局部最优。

二、核心方法：ReMA 框架设计

ReMA（Reinforced Meta-thinking Agents）通过多智能体强化学习（MARL）分离元思考与推理过程，实现更高效的协作优化。

双智能体层级结构
- 高层元思考智能体：负责生成策略性监督和规划（如问题分解、步骤监控）；
- 低层推理智能体：基于高层指导执行详细推理步骤（如计算、逻辑演绎）。
训练机制
- 单轮设置：高层生成元思考计划，低层执行推理，通过强化学习（如 GRPO、REINFORCE++）优化联合目标，奖励函数包括正确性、格式合规性和一致性奖励；
- 多轮扩展：引入参数共享（两智能体共用模型权重，通过角色提示区分）和轮次级比率（Turn-level Ratio），平衡各轮贡献，稳定长序列训练，避免 “回声陷阱”（重复或空响应）。

三、实验结果

基准测试表现
- 在数学推理（如 MATH、GSM8K、AIME24）和 LLM-as-a-Judge（如 RewardBench、JudgeBench）任务中，ReMA 平均性能优于单智能体基线（如 CoT、VRP RL、MRP RL），分布外任务提升显著（如 Llama3-8B 在 AMC23 上提升 20%，Qwen2.5-7B 在 AIME24 上提升 13.33%）。
- 元思考机制增强了 LLMs 对复杂问题的泛化能力，在高难度任务（如 AIME24）上表现优于仅依赖推理的方法。
消融实验与分析
- 轮次级比率相比 token 级比率提升训练稳定性和样本效率；
- 参数共享加速收敛，多轮交互中智能体展现角色反转等动态协作模式（如低层智能体主动验证高层计划）；
- 奖励函数影响行为：一致性奖励促使高层生成更详细指导，但可能导致 “越狱”（直接输出答案），而正确性奖励更稳定。

四、结论与意义

ReMA 通过分离元思考与推理过程，结合 MARL 实现了 LLMs 推理能力的增强，在泛化性、探索效率和可解释性上有显著优势。扩展到多轮设置后，可处理更复杂的长程推理任务。未来可进一步应用于多智能体交互场景，并深入探索多轮强化学习的动态机制。
代码开源地址：https://github.com/ziyuwan/ReMA-public
论文下载地址：