AI | 前端代码生成 SFT+RARL | Code2World: A GUI World Model via Renderable Code Generation·2026.2.10

问题：实现高视觉真实度和细粒度结构控制方面困难贡献：提出了Code2World，一种视觉语言编码器，通过可渲染的代码生成模拟下一个视觉状态。构建数据集SFT+RL：对SFT进行冷启动，随后进行格式布局，然后进一步应用渲染感知强化学习，通过强制执行视觉语义忠实性和动作一致性，将渲染结果作为奖励信号结果：Code2World-8B 下一个UI预测好。与 GPT-5和Gemini-3-Pro-Ima

要加油哦～

36人浏览 · 2026-02-14 18:37:47

要加油哦～ · 2026-02-14 18:37:47 发布

Code2World: A GUI World Model via Renderable Code Generation

Code2World：通过可渲染代码生成的图形界面世界模型

论文仓库数据集和模型暂时不可见

出自 中国科学技术大学 联合牛津大学、阿里巴巴集团、中山大学

摘要：

问题：实现高视觉真实度和细粒度结构控制方面困难

贡献：提出了Code2World，一种视觉语言编码器，通过可渲染的代码生成 模拟下一个视觉状态。

构建数据集 AndroidCode，8w

SFT+RL：对 SFT 进行冷启动，随后进行格式布局，然后进一步应用渲染感知强化学习，通过强制执行视觉语义忠实性和动作一致性，将渲染结果作为奖励信号

结果：Code2World-8B 下一个UI预测好。与 GPT-5和Gemini-3-Pro-Image 匹敌。

Code2World以灵活方式显著提升了下游导航成功率，使Gemini-2.5-Flash在AndroidWorld导航上提升了+9.5%。

Code2World 说明

结论

将下一轮UI预测从原始像素估计转向可渲染的 HTML代码生成

视觉反馈修订循环构建数据集

数据集 AndroidCode，8万对

渲染感知强化学习

用于学习的虚拟沙盒

下一界面预测

即插即用模拟器

√ 下游代理性能

存在风险

错误的安全提示，可能误导

解决：验证机制，以确保预测能力可负责

一、介绍 + 主要贡献

MLLM 的最新进展

用于感知视觉界面

精确推理和纠错

虚拟沙盒的原因，世界模型：以模拟动作条件观察

近期的研究（图形界面世界模型）：一、基于文本；二、基于像素

以及问题/难题、挑战

贡献 ↑

二、相关工作：

图形用户代理：元数据→ 像素级感知

通用基线

上下文管理，自我反思机制，更长的轨迹中自主优化策略

RL 的快速发展，在多领域高级推理和规划能力

RL优化决策逻辑，推理增强的 “R1 风格”微调

在线政策优化

本文：代理→环境，虚拟沙盒。

用渲染感知的 RL 来优化模拟器。

两阶段的优化：SFT + RARL（渲染感知强化学习）

群体相对策略优化 GRPO，优化了双重奖励——视觉语义和动作一致性，从渲染结果中推导出来。

三、Code2World

数据集训练

模型优化：SFT+RARL

四、评估和应用

下一个界面预测的评估

GUI 代理的应用

可增强现有的图形界面代理

“提出、模拟、选择” 集成作为推理前瞻模拟器

五、实验及结果：

实验问题：

三个核心研究问题：

RQ1 世界模特能力：Code2World在域内和分布外环境中预测下一次GUI观测的效果如何？

RQ2 图形界面代理增强：Code2World 能否在离线和在线环境中提升图形界面代理的导航？

RQ3 消融研究：Code2World的每个组成部分如何促进整体表现？

值得注意的是，针对每个环境，我们都会根据相应的研究问题精心调整基线和指标。

结果：

定量比较（ID）界面增强（性能）、消融分析 SFT

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

计算机毕业设计 java 体检预约小程序基于 Java 的智能体检预约服务小程序设计与实现 Spring Boot 框架下体检预约与结果查询平台开发

2048 AI社区

AI原生SaaS应用的持续集成与交付(CI_CD)方案

随着AI技术普及，SaaS应用正从“代码驱动”转向“模型驱动”（如智能推荐、自动客服、风险预测）。传统CI/CD仅管理代码，而AI原生SaaS的CI/CD需额外处理模型训练、数据验证、模型部署等环节。本文将聚焦AI原生SaaS的CI/CD设计，覆盖从代码提交到模型上线的全流程，解答“如何让AI模型像代码一样快速、稳定迭代”的核心问题。本文将按“概念-原理-实战-应用”的逻辑展开：先通过故事引出AI