浅读智谱经典之作《MobileRL》

通用图形用户界面（GUI）智能体是 AI 领域最具前景的挑战之一。随着视觉语言模型（VLM）的飞速发展，构建能够自主操作移动应用（如 Android/iOS）的 Agent 已成为可能。然而，将强化学习 (RL)多步任务中，只有最终成功才给 1 分奖励。任务难度分布不均，导致大量计算资源浪费在极难任务上。移动端模拟器（Emulator）运行缓慢，每一次交互采样的成本极高。**智谱（Zhipu AI

谁怕平生太急

538人浏览 · 2025-12-13 17:00:20

谁怕平生太急 · 2025-12-13 17:00:20 发布

MobileRL：Online Agentic Reinforcement Learning for Mobile GUI Agents

摘要导读：移动 Agent 的“三座大山”与 MobileRL 的突破

通用图形用户界面（GUI）智能体是 AI 领域最具前景的挑战之一。随着视觉语言模型（VLM）的飞速发展，构建能够自主操作移动应用（如 Android/iOS）的 Agent 已成为可能。

然而，将强化学习 (RL) 应用于移动 GUI 代理面临着“三座大山”：

稀疏奖励（Sparse Rewards）： 多步任务中，只有最终成功才给 1 分奖励。
长尾难度（Heavy-tailed Difficulty）： 任务难度分布不均，导致大量计算资源浪费在极难任务上。
昂贵采样（Expensive Sampling）： 移动端模拟器（Emulator）运行缓慢，每一次交互采样的成本极高。

**智谱（Zhipu AI）**提出的 MobileRL 框架，正是针对这些挑战的创新性解决方案。MobileRL 引入了 在线代理强化学习（Online Agentic RL） 范式，并集成了 AdaGRPO（难度自适应梯度策略优化） 算法，显著提升了移动 Agent 的学习效率和最终性能。

核心成果速览： 最终的 MobileRL-9B 模型在最具挑战性的 AndroidWorld (80.2%) 和 AndroidLab (53.6%) 基准上均取得了当时的 SOTA（State-of-the-Art） 性能，尤其在 10B 以下的单模型中表现出领先优势。

一、 MobileRL 的核心概念解析

1. 题目中的 Online Agentic Reinforcement Learning

关键词	定义与含义	MobileRL 中的体现
Online (在线)	智能体在实时环境中进行交互、收集数据，并立即利用这些新数据进行模型更新。	强调 MobileRL 必须在移动模拟器/真机环境中进行动态学习。
Agentic (代理式/智能体)	强调模型不仅是执行器，更是主动的决策制定者。 Agent 必须根据自身对环境（GUI 截图、Accessibility Tree）的观察，做出行动选择以最大化累积奖励。	Agent 依赖其 VLM 核心进行复杂的规划和推理。
Reinforcement Learning (RL)	利用奖励信号，通过试错（Trial-and-Error）来学习最优策略。	是整个框架的核心学习范式。

二、 MobileRL 的训练流程：三阶段迭代

MobileRL 采用了一种鲁棒的 三阶段渐进式训练管线，确保模型从基础动作识别平滑过渡到高级推理和复杂 RL 优化。

阶段 1：无推理的 SFT (Supervised Fine-Tuning)

目的： 建立强大的动作基础。
内容： 使用专家演示数据进行基础 SFT，教会模型**“看到什么，就做什么”**。此时，模型只需识别 GUI 元素并生成正确的动作指令（如 Tap, Swipe 等），不要求输出中间推理步骤。
实现： 借鉴 Llama-Factory 等框架，使用 Packing 模式以提高数据加载和训练效率。

阶段 2：推理 SFT (Reasoning-SFT)

目的： 增强模型的推理能力和策略透明度。
内容：
- Bootstrap 采样： 让 Agent 根据指令生成包含详细**中间推理步骤（Reasoning）**的动作序列。
- 迭代优化（Iterative Refinement）： 筛选出结果正确的样本，将 Reasoning 文本作为专家数据的一部分进行训练。
意义： 这一步使 Agent 不仅知道“怎么做”，还知道**“为什么要这么做”**，为后续 RL 阶段提供更可靠的初始策略。

阶段 3：带 AdaGRPO 的 Agentic RL

目的： 在真实环境中，通过试错机制，解决稀疏奖励和长尾难度问题，优化策略以达到最优。
算法： 核心是基于 GRPO (广义相对策略优化) 扩展而来的 AdaGRPO 算法。

三、 MobileRL 的核心创新：难度自适应 AdaGRPO

AdaGRPO 算法集成了三大关键组件，共同应对移动 Agent 的挑战：

1. SPA：最短路径奖励调整（Shortest-Path Reward Adjustment）

解决问题： 稀疏奖励和长轨迹偏置。

传统缺陷： 在多步任务中，最终的二值奖励（成功=1）会被广播给轨迹中的所有步骤。这导致模型误认为长轨迹比短轨迹提供了更多的正向信号，从而倾向于生成冗余操作或**“磨洋工”**。
SPA 机制： MobileRL 重新设计了奖励整形机制，通过同一任务组内的最短成功轨迹来约束最终奖励。它本质上是引入了对轨迹长度的惩罚项，激励 Agent 追求效率和简洁性。
效果： 奖励重塑为 Agent 提供了更密集的反馈，并矫正了策略中“越长越好”的错误倾向。

2. AdaPR：难度自适应正向回放（Difficulty-Adaptive Positive Replay）

解决问题： 稀疏成功经验和 On-Policy RL 的样本浪费。

挑战： 成功且有难度的轨迹极其罕见。标准的 On-Policy RL（如 GRPO）用完数据后就丢弃，导致珍贵的成功经验被浪费。
AdaPR 机制：
- 保留那些不常见且成功的轨迹到一个特殊的回放缓冲区。
- 在每次策略更新时，对这些高质量的成功样本进行多次重放（Replay），放大其学习信号。
效果： 稳定了策略训练过程，极大地提高了样本效率，确保 Agent 充分学习到那些高信息量的成功经验。

3. FCF：失败课程过滤（Failure Curriculum Filtering）

解决问题： 长尾难度分布和昂贵的计算资源浪费。

挑战： 将大量的采样预算浪费在对当前 Agent 来说极难（优势值持续为负）或持续失败（奖励全为 0）的任务上，导致训练效率低下。
FCF 机制：
- 识别无用轨迹： 监测强化学习缓冲区中优势值持续为负的轨迹，这些轨迹对当前的策略有害或无法解决。
- 过滤： 在每次更新之前，剔除这些过于频繁且持续失败的轨迹。
效果： 避免了 Agent 受到有害梯度的影响，保持策略熵始终较高，促使概率质量分散到更广泛的动作空间，促进探索并延缓过早收敛，最终实现更健壮的策略学习。

四、总结与展望

MobileRL 框架通过其三阶段训练和AdaGRPO的创新组件，为移动 GUI 智能体提供了一个有效的 RL 解决方案。

VLM 基础： 使用强大的 Qwen2.5-VL-7B 和 GLM-4.1V-9B 等 VLM 作为大脑，确保了强大的视觉感知和指令遵循能力。
动作空间： 涵盖了 Tap, Swipe, Type, Launch, Home, Back, Wait, Finish 等完整的基本移动端操作。
数据基础： 论文附录展示了对 AndroidControl 等开源数据集的有效转换和利用。

MobileRL 证明了通过精心设计的 RL 优化和难度自适应机制，可以克服移动 GUI 代理训练中的核心障碍，为未来通用 Agent 的落地应用奠定了坚实的基础。

五、其他内容

AndroidWorld上得到80.2%，这是目前10B以下单模型看到的最高分。 UI-TARS-2.0不到74%

为了增强模型的推理能力和透明度，研究者通过迭代策略将中间推理步骤 (Reasoning) 补充到专家数据中。具体过程包括：

Bootstrap 采样：让指令模型生成包含推理过程的候选操作，筛选出结果正确的样本。
迭代优化 (Iterative refinement)：通过多轮训练和筛选，不断优化生成的推理文本质量，最终构建出包含详细思考过程的训练数据。

重新设计了奖励，通过同一组当中短轨迹来对最终奖励进行约束，公式见原论文

保留不常见的成功样例，多次训练

动作空间：包括基本操作，如点击（Tap）、滑动（Swipe）、输入（Type）、长按（Long Press）、启动（Launch）、主页（Home）、返回（Back）、等待（Wait）以及终止动作（Finish）。

MOBILERL 包括无推理的 SFT、推理 SFT 以及难度适应的 RL，用于训练移动 GUI 代理。

无推理的 SFT 有助于从专家演示中建立强大的动作基础，

而推理 SFT 则增加了中间推理，以提高对指令的遵循和策略的透明度。

在此初始化基础上，带 ADAGRPO 的代理式 RL 解决了稀疏终端奖励、重尾任务难度和昂贵采样的挑战。

具体而言，SPA 重塑终端奖励以提供更密集的反馈，AdaPR 战略性地重用具有挑战性的成功轨迹，FCF 过滤掉持续无法解决的任务。

用 Llama-Factory 框架做SFT，并启用了 packing 模式以提高训练效率。

在 RL 阶段，我们在 Verl 的 GRPO 框架基础上扩展了我们自定义的功能。

研究了训练剪枝策略，避免过早收敛。

我们进一步研究了一种剪枝策略，在每次更新之前从强化学习缓冲区中剔除过于频繁的错误轨迹。如图10所示，这种过滤方法在训练过程中能够保持策略熵始终较高。通过剔除优势值持续为负的轨迹，智能体避免了受到有害梯度的影响；相反，概率质量会分散到更广泛的动作空间，从而促进探索并延缓过早收敛。这种剪枝策略最终能够实现更健壮的策略学习。

附录C 展示了完整的数据收集情况

比如 androidcontrol

AndroidControl（Li 等人，2024）数据集中的每个测试用例包括 episode_id、goal、screenshots、accessibility_trees、screenshot_widths、actions、screenshot_heights 和 step_instructions。输入信息和输出动作的格式与我们的动作空间不同，我们在表8中提供了转换的详细信息。为了进行评估，某些转换是必需的。该数据集包含 8,444 个测试样本、690 个验证样本和 74,714 个训练样本。

论文的消融实验还蛮有意思的，充分说明了 SFT的重要性，以及在重要场景下GRPO的重要性。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐