MobileRL:Online Agentic Reinforcement Learning for Mobile GUI Agents

摘要导读:移动 Agent 的“三座大山”与 MobileRL 的突破

通用图形用户界面(GUI)智能体是 AI 领域最具前景的挑战之一。随着视觉语言模型(VLM)的飞速发展,构建能够自主操作移动应用(如 Android/iOS)的 Agent 已成为可能。

然而,将强化学习 (RL) 应用于移动 GUI 代理面临着“三座大山”:

  1. 稀疏奖励(Sparse Rewards): 多步任务中,只有最终成功才给 1 分奖励。
  2. 长尾难度(Heavy-tailed Difficulty): 任务难度分布不均,导致大量计算资源浪费在极难任务上。
  3. 昂贵采样(Expensive Sampling): 移动端模拟器(Emulator)运行缓慢,每一次交互采样的成本极高。

**智谱(Zhipu AI)**提出的 MobileRL 框架,正是针对这些挑战的创新性解决方案。MobileRL 引入了 在线代理强化学习(Online Agentic RL) 范式,并集成了 AdaGRPO(难度自适应梯度策略优化) 算法,显著提升了移动 Agent 的学习效率和最终性能。

  • 核心成果速览: 最终的 MobileRL-9B 模型在最具挑战性的 AndroidWorld (80.2%)AndroidLab (53.6%) 基准上均取得了当时的 SOTA(State-of-the-Art) 性能,尤其在 10B 以下的单模型中表现出领先优势。

一、 MobileRL 的核心概念解析

1. 题目中的 Online Agentic Reinforcement Learning

关键词 定义与含义 MobileRL 中的体现
Online (在线) 智能体在实时环境中进行交互、收集数据,并立即利用这些新数据进行模型更新。 强调 MobileRL 必须在移动模拟器/真机环境中进行动态学习
Agentic (代理式/智能体) 强调模型不仅是执行器,更是主动的决策制定者。 Agent 必须根据自身对环境(GUI 截图、Accessibility Tree)的观察,做出行动选择以最大化累积奖励。 Agent 依赖其 VLM 核心进行复杂的规划和推理。
Reinforcement Learning (RL) 利用奖励信号,通过试错(Trial-and-Error)来学习最优策略。 是整个框架的核心学习范式

二、 MobileRL 的训练流程:三阶段迭代

MobileRL 采用了一种鲁棒的 三阶段渐进式训练管线,确保模型从基础动作识别平滑过渡到高级推理和复杂 RL 优化。

阶段 1:无推理的 SFT (Supervised Fine-Tuning)

  • 目的: 建立强大的动作基础
  • 内容: 使用专家演示数据进行基础 SFT,教会模型**“看到什么,就做什么”**。此时,模型只需识别 GUI 元素并生成正确的动作指令(如 Tap, Swipe 等),不要求输出中间推理步骤。
  • 实现: 借鉴 Llama-Factory 等框架,使用 Packing 模式以提高数据加载和训练效率。

阶段 2:推理 SFT (Reasoning-SFT)

  • 目的: 增强模型的推理能力策略透明度
  • 内容:
    • Bootstrap 采样: 让 Agent 根据指令生成包含详细**中间推理步骤(Reasoning)**的动作序列。
    • 迭代优化(Iterative Refinement): 筛选出结果正确的样本,将 Reasoning 文本作为专家数据的一部分进行训练。
  • 意义: 这一步使 Agent 不仅知道“怎么做”,还知道**“为什么要这么做”**,为后续 RL 阶段提供更可靠的初始策略。

阶段 3:带 AdaGRPO 的 Agentic RL

  • 目的: 在真实环境中,通过试错机制,解决稀疏奖励和长尾难度问题,优化策略以达到最优。
  • 算法: 核心是基于 GRPO (广义相对策略优化) 扩展而来的 AdaGRPO 算法。

三、 MobileRL 的核心创新:难度自适应 AdaGRPO

AdaGRPO 算法集成了三大关键组件,共同应对移动 Agent 的挑战:

1. SPA:最短路径奖励调整(Shortest-Path Reward Adjustment)

解决问题: 稀疏奖励长轨迹偏置

  • 传统缺陷: 在多步任务中,最终的二值奖励(成功=1)会被广播给轨迹中的所有步骤。这导致模型误认为长轨迹短轨迹提供了更多的正向信号,从而倾向于生成冗余操作或**“磨洋工”**。
  • SPA 机制: MobileRL 重新设计了奖励整形机制,通过同一任务组内的最短成功轨迹来约束最终奖励。它本质上是引入了对轨迹长度的惩罚项,激励 Agent 追求效率和简洁性。
  • 效果: 奖励重塑为 Agent 提供了更密集的反馈,并矫正了策略中“越长越好”的错误倾向。

2. AdaPR:难度自适应正向回放(Difficulty-Adaptive Positive Replay)

解决问题: 稀疏成功经验On-Policy RL 的样本浪费

  • 挑战: 成功且有难度的轨迹极其罕见。标准的 On-Policy RL(如 GRPO)用完数据后就丢弃,导致珍贵的成功经验被浪费。
  • AdaPR 机制:
    • 保留那些不常见且成功的轨迹到一个特殊的回放缓冲区
    • 在每次策略更新时,对这些高质量的成功样本进行多次重放(Replay)放大其学习信号。
  • 效果: 稳定了策略训练过程,极大地提高了样本效率,确保 Agent 充分学习到那些高信息量的成功经验。

3. FCF:失败课程过滤(Failure Curriculum Filtering)

解决问题: 长尾难度分布昂贵的计算资源浪费

  • 挑战: 将大量的采样预算浪费在对当前 Agent 来说极难(优势值持续为负)或持续失败(奖励全为 0)的任务上,导致训练效率低下。
  • FCF 机制:
    • 识别无用轨迹: 监测强化学习缓冲区中优势值持续为负的轨迹,这些轨迹对当前的策略有害或无法解决。
    • 过滤: 在每次更新之前,剔除这些过于频繁且持续失败的轨迹。
  • 效果: 避免了 Agent 受到有害梯度的影响,保持策略熵始终较高,促使概率质量分散到更广泛的动作空间,促进探索延缓过早收敛,最终实现更健壮的策略学习。

四、 总结与展望

MobileRL 框架通过其三阶段训练AdaGRPO的创新组件,为移动 GUI 智能体提供了一个有效的 RL 解决方案。

  • VLM 基础: 使用强大的 Qwen2.5-VL-7BGLM-4.1V-9B 等 VLM 作为大脑,确保了强大的视觉感知和指令遵循能力。
  • 动作空间: 涵盖了 Tap, Swipe, Type, Launch, Home, Back, Wait, Finish 等完整的基本移动端操作。
  • 数据基础: 论文附录展示了对 AndroidControl 等开源数据集的有效转换和利用。

MobileRL 证明了通过精心设计的 RL 优化和难度自适应机制,可以克服移动 GUI 代理训练中的核心障碍,为未来通用 Agent 的落地应用奠定了坚实的基础。

五、其他内容

AndroidWorld上得到80.2%,这是目前10B以下单模型看到的最高分。 UI-TARS-2.0不到74%

为了增强模型的推理能力和透明度,研究者通过迭代策略将中间推理步骤 (Reasoning) 补充到专家数据中。具体过程包括:

  1. Bootstrap 采样:让指令模型生成包含推理过程的候选操作,筛选出结果正确的样本。
  2. 迭代优化 (Iterative refinement):通过多轮训练和筛选,不断优化生成的推理文本质量,最终构建出包含详细思考过程的训练数据。

重新设计了奖励,通过 同一组当中短轨迹来对最终奖励进行约束,公式见原论文

保留不常见的成功样例,多次训练

动作空间:包括基本操作,如点击(Tap)、滑动(Swipe)、输入(Type)、长按(Long Press)、启动(Launch)、主页(Home)、返回(Back)、等待(Wait)以及终止动作(Finish)。

MOBILERL 包括无推理的 SFT、推理 SFT 以及难度适应的 RL,用于训练移动 GUI 代理。

无推理的 SFT 有助于从专家演示中建立强大的动作基础,

而推理 SFT 则增加了中间推理,以提高对指令的遵循和策略的透明度。

在此初始化基础上,带 ADAGRPO 的代理式 RL 解决了稀疏终端奖励、重尾任务难度和昂贵采样的挑战。

具体而言,SPA 重塑终端奖励以提供更密集的反馈,AdaPR 战略性地重用具有挑战性的成功轨迹,FCF 过滤掉持续无法解决的任务。

用 Llama-Factory 框架 做SFT,并启用了 packing 模式以提高训练效率。

在 RL 阶段,我们在 Verl 的 GRPO 框架基础上扩展了我们自定义的功能。

研究了 训练剪枝策略,避免过早收敛。

我们进一步研究了一种剪枝策略,在每次更新之前从强化学习缓冲区中剔除过于频繁的错误轨迹。如图10所示,这种过滤方法在训练过程中能够保持策略熵始终较高。通过剔除优势值持续为负的轨迹,智能体避免了受到有害梯度的影响;相反,概率质量会分散到更广泛的动作空间,从而促进探索并延缓过早收敛。这种剪枝策略最终能够实现更健壮的策略学习。

附录C 展示了完整的数据收集情况

比如 androidcontrol

AndroidControl(Li 等人,2024)数据集中的每个测试用例包括 episode_id、goal、screenshots、accessibility_trees、screenshot_widths、actions、screenshot_heights 和 step_instructions。输入信息和输出动作的格式与我们的动作空间不同,我们在表8中提供了转换的详细信息。为了进行评估,某些转换是必需的。该数据集包含 8,444 个测试样本、690 个验证样本和 74,714 个训练样本。

论文的消融实验还蛮有意思的,充分说明了 SFT的重要性,以及在重要场景下GRPO的重要性。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐