Code2World: A GUI World Model via Renderable Code Generation

Code2World:通过可渲染代码生成的图形界面世界模型

论文  仓库   数据集和模型暂时不可见

出自 中国科学技术大学 联合牛津大学、阿里巴巴集团、中山大学


摘要:

问题:实现 高视觉真实度和细粒度结构控制方面 困难

贡献:提出了Code2World,一种视觉语言编码器,通过可渲染的代码生成 模拟下一个视觉状态。

构建数据集 AndroidCode,8w

SFT+RL:对 SFT 进行冷启动,随后进行格式布局,然后进一步应用渲染感知强化学习,通过强制执行视觉语义忠实性和动作一致性,将渲染结果作为奖励信号

结果:Code2World-8B 下一个UI预测好。与 GPT-5和Gemini-3-Pro-Image 匹敌。

Code2World以灵活方式显著提升了下游导航成功率,使Gemini-2.5-Flash在AndroidWorld导航上提升了+9.5%。

Code2World 说明


结论

将下一轮UI预测  从原始像素估计转向 可渲染的 HTML代码生成

视觉反馈修订循环 构建数据集

数据集 AndroidCode,8万对

渲染感知 强化学习

用于学习的 虚拟沙盒

下一界面预测

即插即用 模拟器

√ 下游代理性能


存在风险

错误的安全提示,可能误导

解决:验证机制,以确保 预测能力 可负责


一、介绍 + 主要贡献

MLLM 的最新进展

用于感知视觉界面

精确推理 和 纠错

虚拟沙盒的原因,世界模型:以模拟动作条件观察

近期的研究(图形界面世界模型):一 、基于文本;二、基于像素

以及 问题/难题、挑战

贡献 ↑ 


二、相关工作:

图形用户代理:元数据→ 像素级感知

通用基线

上下文管理,自我反思机制,更长的轨迹中 自主优化策略

RL 的快速发展,在多领域 高级推理和规划能力

RL优化决策逻辑,推理增强的 “R1 风格”微调

在线政策优化

本文:代理→环境,虚拟沙盒。

用渲染感知的 RL 来优化模拟器。

两阶段的优化:SFT + RARL(渲染感知强化学习)

群体相对策略优化 GRPO,优化了双重奖励——视觉语义 和 动作一致性,从渲染结果中推导出来。


三、Code2World

数据集训练

模型优化:SFT+RARL


四、评估和应用

下一个界面预测的评估

GUI 代理的应用

可增强现有的图形界面代理

“提出、模拟、选择” 集成作为推理前瞻模拟器


五、实验 及 结果:

实验问题:

三个核心研究问题:

RQ1 世界模特能力:Code2World在域内和分布外环境中预测下一次GUI观测的效果如何?

RQ2 图形界面代理增强:Code2World 能否在离线和在线环境中提升图形界面代理的导航?

RQ3 消融研究:Code2World的每个组成部分如何促进整体表现?

值得注意的是,针对每个环境,我们都会根据相应的研究问题精心调整基线和指标。

结果:

定量比较(ID)界面增强(性能)、消融分析 SFT

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐