Genie 3 + SIMA：DeepMind 的 Agent 训练闭环是怎么跑起来的

DeepMind将世界模型Genie 3与通用智能体SIMA结合，构建了一个自动化的测试闭环：Genie 3根据文字描述生成3D环境，SIMA在其中执行导航等任务。这种组合大幅提升了测试效率，能快速生成多样化场景并发现边缘案例。但存在物理模拟不准确、动作空间有限等限制，目前更适合作为研究工具而非训练方案。该思路展示了生成式AI创建测试环境的潜力，为智能体研究提供了新范式。

Wild API

582人浏览 · 2026-02-02 11:06:00

Wild API · 2026-02-02 11:06:00 发布

两个项目的交汇

DeepMind 有两个看起来独立的项目：

Genie 3 是世界模型。输入文字描述，生成可交互的 3D 环境。

SIMA（Scalable Instructable Multiworld Agent）是通用智能体。理解自然语言指令，在各种游戏和模拟环境中执行任务。

把这两个拼在一起，就有了一个有趣的闭环：SIMA 在 Genie 3 生成的无限世界里训练和测试。

闭环的工作流程

具体怎么跑的：

1. 用文字生成测试环境

研究员输入类似"迷宫式的地下城，有陷阱和宝箱"的描述。Genie 3 生成一个可探索的 3D 世界。

2. 给 SIMA 下达任务

比如"找到红色宝箱"或"避开所有陷阱到达出口"。

3. SIMA 输出动作

SIMA 观察当前画面，决定按哪个键（上下左右）。这个动作发送给 Genie 3。

4. Genie 3 生成下一帧

根据 SIMA 的动作，Genie 3 生成世界的下一个状态。

5. 循环直到任务完成或超时

整个过程不需要人工干预。一个测试跑完，可以自动换一个新的世界描述，继续测。

为什么这很有用

传统方法训练智能体，需要手动创建测试环境。每个场景都要美术设计、程序实现、测试验证。

有了 Genie 3，生成新场景变成了写一句话的事。

这解决了几个问题：

场景多样性

以前 SIMA 可能只在 10 个手工搭建的关卡里训练。现在可以轻松生成 1000 个不同的关卡。更多样的训练数据，理论上能带来更好的泛化能力。

边缘案例测试

想测试 SIMA 在"悬崖边"、“火焰中”、"水下"这些极端环境的表现？以前要单独设计这些场景。现在直接描述生成就行。

快速迭代

改了 SIMA 的模型，想快速测试效果？批量生成 100 个世界，跑一轮测试，几分钟出结果。

实际的限制

这个闭环听起来很美，但有几个没解决的问题：

Genie 3 的物理不可靠

如果生成的世界里物理规律不稳定（球不滚、人穿墙），SIMA 学到的可能是错误的因果关系。

DeepMind 的说法是：这个闭环主要用于测试，不是训练。在 Genie 3 里失败的 SIMA，说明有问题需要修复。但不能因为在 Genie 3 里成功，就认为在现实中也没问题。

动作空间太简单

目前的闭环只支持方向键输入。SIMA 在真正的游戏里可以用鼠标、组合键、甚至语音。但在 Genie 3 里只能上下左右。

这意味着只能测试导航类任务，没法测试复杂的交互。

没有多智能体

Genie 3 目前只支持单个角色探索。如果你想测试 SIMA 和其他 AI 或人类的协作/对抗，这个闭环做不到。

任务定义靠人工

"找到红色宝箱"这个任务描述是人写的。怎么判断任务是否完成？目前还需要额外的判别器或人工检查。这个环节没有自动化。

和传统仿真的对比

把 Genie 3 + SIMA 闭环和传统方法（比如用 Unity 或 Unreal 搭建仿真环境）对比：

方面	Genie 3 闭环	传统仿真
场景创建速度	秒级	天到周
物理准确性	不可靠	精确可控
视觉多样性	很高	取决于资产库
动作空间	有限（方向键）	完整（任意输入）
可复现性	低（每次生成不同）	高（确定性）
调试友好性	差（黑箱）	好（可检查状态）