【AI论文速递】RAG-GUI：轻量VLM用SFT/RSF提升GUI性能

摘要：本文提出RAG-GUI，一种轻量级视觉语言模型（VLM），通过检索增强生成技术提升GUI智能体的性能。该模型采用两阶段训练（SFT+RSF），无需重训练即可适配不同VLM，并在推理时直接利用网页教程作为动态知识库。实验表明，RAG-GUI在3个任务中均优于基线，7B/72B模型在在线基准AndroidWorld上性能分别提升13.3%和10.7%。其创新点包括即插即用设计、自引导微调方法及

斯文～

191人浏览 · 2025-11-21 23:30:00

斯文～ · 2025-11-21 23:30:00 发布

文章目录

🔖 论文标题：Retrieval-augmented GUI Agents with Generative Guidelines
📅 发布时间：2025年9月29日
🌐 Arxiv ID：arXiv:2509.24183v1
🔑 关键词：GUI Agents（图形用户界面智能体）, Retrieval-augmented Generation（检索增强生成）, Vision-Language Models（视觉语言模型）

✨ 亮点总结：

提出轻量级VLM模型RAG-GUI，可作为通用插件增强任意基于VLM的GUI智能体，实现“即插即用”；
创新采用两阶段训练（SFT监督微调+RSF自引导拒绝采样微调），无需大量重训练即可提升性能；
首次在推理时直接利用网页教程作为非参数知识库，解决GUI任务中长尾知识稀缺、泛化性差的问题；
在3个任务、2种模型规模上均优于基线，在线AndroidWorld基准中7B/72B模型性能分别提升13.3%、10.7%，落地潜力强。

📝 摘要翻译：

由视觉语言模型（VLM）驱动的图形用户界面（GUI）智能体，在自动化复杂数字任务方面展现出良好前景。然而，由于训练数据稀缺以及任务本身固有的复杂性（常需覆盖罕见、未见过场景的长尾知识），其在实际应用中的效果往往受限。本文提出RAG-GUI——一种轻量级VLM，可在推理时利用网页教程。RAG-GUI首先通过监督微调（SFT）实现“预热”，再通过自引导拒绝采样微调（RSF）进一步优化。该模型具备模型无关性，可作为通用插件增强任意基于VLM的智能体。在3个不同任务上的评估显示，它持续优于基线智能体，且在两种模型规模下，比其他推理基线的性能提升2.6%至13.3%，证明其在实际场景中具有出色的泛化能力和“即插即用”实用性。

📌 研究背景：

GUI智能体可自动化网页浏览器、电脑、移动应用等多平台的复杂交互，近年来VLM的发展大幅提升了其视觉上下文理解与推理能力。但这类智能体仍面临两大核心瓶颈：一是真实世界GUI任务多为多步骤复杂任务，对知识覆盖要求高；二是高质量训练数据稀缺，难以支撑模型应对罕见场景，导致泛化性不足。

💡 研究动机：

现有研究多通过网页教程合成训练轨迹来优化GUI智能体，但合成数据质量参差不齐，且无法灵活适配新任务。传统检索增强生成（RAG）依赖清洗后的固定长度文本块，难以处理网页教程中的程序性知识（固定分块易丢失步骤逻辑，不处理则输入冗长嘈杂），且教程与任务的相关性无法保证。因此，亟需一种能在推理时高效利用网页教程、适配GUI任务特性的轻量化增强方案。

🚀 方法简介：

教程数据集构建：从MINT、OmniCorpus、WikiHow筛选260万条高质量GUI教程（经FastText过滤、去重、LLM标注三阶段处理）；
两阶段训练RAG-GUI（作为智能体与教程间的适配器）：
- SFT预热：用GPT-4.1-mini生成（状态、教程、动作）对的高质量指导数据，训练RAG-GUI初步具备相关性判断与指导生成能力；
- RSF优化：基于“优质指导能帮助智能体选对动作”的假设，筛选能让智能体输出正确动作的指导数据，进一步微调RAG-GUI；
推理流程：先检索与当前任务相关的教程，RAG-GUI生成带相关性标签的指导，过滤后将相关指导输入智能体，辅助其决策（智能体参数固定，仅优化RAG-GUI）。

📊 实验设计与结果：

实验设计：
- 数据集：离线任务（AndroidControl、MultimodalMind2Web）、在线任务（AndroidWorld，模拟真实场景）；
- 基线：无教程推理模型（如GPT-4o、Claude）、传统RAG、教程合成训练模型（如AgentTrek）；
- 评估指标：元素准确率（Ele. Acc.）、操作F1（Op. F1）、步骤成功率（Step SR）、步骤准确率（Step Acc.）。
关键结果：
- 离线任务：RAG-GUI比传统RAG提升显著，7B模型在Mind2Web、AndroidControl上分别提升4.4%、6.3%，且优于AgentTrek等合成训练模型；
- 在线任务：7B/72B模型性能分别提升13.3%、10.7%，大幅缩小与训练式方法的差距；
- 消融实验：RSF微调可使性能进一步提升（如7B模型AndroidWorld SR从32.8%升至35.3%），证明两阶段训练有效性。

🔍 本帖由AI整理生成，若有错误欢迎指正！
👉🏻 如果喜欢，请关注我，每天带你速览AI领域前沿论文！ ❤️

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Spring AI MCP Client Boot Starter 技术详解与最佳实践

Spring AI MCP（Model Context Protocol）Client Boot Starter 是 Spring Boot 生态下的自动化配置组件，旨在简化 MCP 客户端的集成与管理，实现与多种 AI/LLM 服务和工具的高效连接。支持同步（SYNC）与异步（ASYNC）客户端，涵盖多种传输协议（STDIO、HTTP/SSE、Streamable HTTP），并具备工具过滤、命

2048 AI社区

领码课堂 | 抛弃AOP！SpringBoot 配置化实现零侵入数据脱敏神操作

📌 摘要本文提出一种基于Nacos配置中心的Spring Boot零侵入数据脱敏方案，解决传统AOP+注解方式在维护性、性能与动态更新方面的不足。方案通过外置YAML规则、动态下发、递归路径匹配实现低耦合脱敏，支持嵌套对象与集合处理。核心设计包括：1）Nacos存储分层规则（按交易码+字段路径）；2）统一响应拦截器实现零代码侵入；3）可扩展的规则引擎（支持正则/脚本/自定义函数）。文章详细展示