论文题目《ReMA:基于多智能体强化学习增强 LLMs 元思考能力的框架总结》

一、研究背景与问题

       大型语言模型(LLMs)在推理任务中的性能提升依赖于元思考能力(即 “对思考的思考”),但现有方法存在局限:

  • 构造式监督方法(如基于模板的微调)灵活性不足,泛化到分布外(OOD)任务时性能不稳定;
  • 单智能体强化学习(SARL)需在单次前向传播中同时学习元思考和推理,导致探索效率低、易收敛到局部最优。

二、核心方法:ReMA 框架设计

       ReMA(Reinforced Meta-thinking Agents)通过多智能体强化学习(MARL)分离元思考与推理过程,实现更高效的协作优化。

  1. 双智能体层级结构
    • 高层元思考智能体:负责生成策略性监督和规划(如问题分解、步骤监控);
    • 低层推理智能体:基于高层指导执行详细推理步骤(如计算、逻辑演绎)。
  2. 训练机制
    • 单轮设置:高层生成元思考计划,低层执行推理,通过强化学习(如 GRPO、REINFORCE++)优化联合目标,奖励函数包括正确性、格式合规性和一致性奖励;
    • 多轮扩展:引入参数共享(两智能体共用模型权重,通过角色提示区分)和轮次级比率(Turn-level Ratio),平衡各轮贡献,稳定长序列训练,避免 “回声陷阱”(重复或空响应)。

三、实验结果

  1. 基准测试表现
    • 在数学推理(如 MATH、GSM8K、AIME24)和 LLM-as-a-Judge(如 RewardBench、JudgeBench)任务中,ReMA 平均性能优于单智能体基线(如 CoT、VRP RL、MRP RL),分布外任务提升显著(如 Llama3-8B 在 AMC23 上提升 20%,Qwen2.5-7B 在 AIME24 上提升 13.33%)。
    • 元思考机制增强了 LLMs 对复杂问题的泛化能力,在高难度任务(如 AIME24)上表现优于仅依赖推理的方法。
  2. 消融实验与分析
    • 轮次级比率相比 token 级比率提升训练稳定性和样本效率;
    • 参数共享加速收敛,多轮交互中智能体展现角色反转等动态协作模式(如低层智能体主动验证高层计划);
    • 奖励函数影响行为:一致性奖励促使高层生成更详细指导,但可能导致 “越狱”(直接输出答案),而正确性奖励更稳定。

四、结论与意义

       ReMA 通过分离元思考与推理过程,结合 MARL 实现了 LLMs 推理能力的增强,在泛化性、探索效率和可解释性上有显著优势。扩展到多轮设置后,可处理更复杂的长程推理任务。未来可进一步应用于多智能体交互场景,并深入探索多轮强化学习的动态机制。
代码开源地址:https://github.com/ziyuwan/ReMA-public
论文下载地址:

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐