AI | 前端代码生成 SFT+RARL | Code2World: A GUI World Model via Renderable Code Generation·2026.2.10
问题:实现 高视觉真实度和细粒度结构控制方面 困难贡献:提出了Code2World,一种视觉语言编码器,通过可渲染的代码生成模拟下一个视觉状态。构建数据集SFT+RL:对SFT进行冷启动,随后进行格式布局,然后进一步应用渲染感知强化学习,通过强制执行视觉语义忠实性和动作一致性,将渲染结果作为奖励信号结果:Code2World-8B 下一个UI预测好。与 GPT-5和Gemini-3-Pro-Ima
Code2World: A GUI World Model via Renderable Code Generation
Code2World:通过可渲染代码生成的图形界面世界模型
出自 中国科学技术大学 联合牛津大学、阿里巴巴集团、中山大学

摘要:
问题:实现 高视觉真实度和细粒度结构控制方面 困难
贡献:提出了Code2World,一种视觉语言编码器,通过可渲染的代码生成 模拟下一个视觉状态。
构建数据集 AndroidCode,8w
SFT+RL:对 SFT 进行冷启动,随后进行格式布局,然后进一步应用渲染感知强化学习,通过强制执行视觉语义忠实性和动作一致性,将渲染结果作为奖励信号
结果:Code2World-8B 下一个UI预测好。与 GPT-5和Gemini-3-Pro-Image 匹敌。
Code2World以灵活方式显著提升了下游导航成功率,使Gemini-2.5-Flash在AndroidWorld导航上提升了+9.5%。
Code2World 说明
结论
将下一轮UI预测 从原始像素估计转向 可渲染的 HTML代码生成
视觉反馈修订循环 构建数据集
数据集 AndroidCode,8万对
渲染感知 强化学习
用于学习的 虚拟沙盒
下一界面预测
即插即用 模拟器
√ 下游代理性能
存在风险
错误的安全提示,可能误导
解决:验证机制,以确保 预测能力 可负责
一、介绍 + 主要贡献
MLLM 的最新进展
用于感知视觉界面
精确推理 和 纠错
虚拟沙盒的原因,世界模型:以模拟动作条件观察
近期的研究(图形界面世界模型):一 、基于文本;二、基于像素
以及 问题/难题、挑战
贡献 ↑
二、相关工作:
图形用户代理:元数据→ 像素级感知
通用基线
上下文管理,自我反思机制,更长的轨迹中 自主优化策略
RL 的快速发展,在多领域 高级推理和规划能力
RL优化决策逻辑,推理增强的 “R1 风格”微调
在线政策优化
本文:代理→环境,虚拟沙盒。
用渲染感知的 RL 来优化模拟器。
两阶段的优化:SFT + RARL(渲染感知强化学习)
群体相对策略优化 GRPO,优化了双重奖励——视觉语义 和 动作一致性,从渲染结果中推导出来。
三、Code2World
数据集训练
模型优化:SFT+RARL
四、评估和应用
下一个界面预测的评估
GUI 代理的应用
可增强现有的图形界面代理
“提出、模拟、选择” 集成作为推理前瞻模拟器
五、实验 及 结果:
实验问题:
三个核心研究问题:
RQ1 世界模特能力:Code2World在域内和分布外环境中预测下一次GUI观测的效果如何?
RQ2 图形界面代理增强:Code2World 能否在离线和在线环境中提升图形界面代理的导航?
RQ3 消融研究:Code2World的每个组成部分如何促进整体表现?
值得注意的是,针对每个环境,我们都会根据相应的研究问题精心调整基线和指标。
结果:
定量比较(ID)界面增强(性能)、消融分析 SFT
更多推荐



























所有评论(0)