两个项目的交汇

DeepMind 有两个看起来独立的项目:

Genie 3 是世界模型。输入文字描述,生成可交互的 3D 环境。

SIMA(Scalable Instructable Multiworld Agent)是通用智能体。理解自然语言指令,在各种游戏和模拟环境中执行任务。

把这两个拼在一起,就有了一个有趣的闭环:SIMA 在 Genie 3 生成的无限世界里训练和测试。

闭环的工作流程

具体怎么跑的:

1. 用文字生成测试环境

研究员输入类似"迷宫式的地下城,有陷阱和宝箱"的描述。Genie 3 生成一个可探索的 3D 世界。

2. 给 SIMA 下达任务

比如"找到红色宝箱"或"避开所有陷阱到达出口"。

3. SIMA 输出动作

SIMA 观察当前画面,决定按哪个键(上下左右)。这个动作发送给 Genie 3。

4. Genie 3 生成下一帧

根据 SIMA 的动作,Genie 3 生成世界的下一个状态。

5. 循环直到任务完成或超时

整个过程不需要人工干预。一个测试跑完,可以自动换一个新的世界描述,继续测。

为什么这很有用

传统方法训练智能体,需要手动创建测试环境。每个场景都要美术设计、程序实现、测试验证。

有了 Genie 3,生成新场景变成了写一句话的事。

这解决了几个问题:

场景多样性

以前 SIMA 可能只在 10 个手工搭建的关卡里训练。现在可以轻松生成 1000 个不同的关卡。更多样的训练数据,理论上能带来更好的泛化能力。

边缘案例测试

想测试 SIMA 在"悬崖边"、“火焰中”、"水下"这些极端环境的表现?以前要单独设计这些场景。现在直接描述生成就行。

快速迭代

改了 SIMA 的模型,想快速测试效果?批量生成 100 个世界,跑一轮测试,几分钟出结果。

实际的限制

这个闭环听起来很美,但有几个没解决的问题:

Genie 3 的物理不可靠

如果生成的世界里物理规律不稳定(球不滚、人穿墙),SIMA 学到的可能是错误的因果关系。

DeepMind 的说法是:这个闭环主要用于测试,不是训练。在 Genie 3 里失败的 SIMA,说明有问题需要修复。但不能因为在 Genie 3 里成功,就认为在现实中也没问题。

动作空间太简单

目前的闭环只支持方向键输入。SIMA 在真正的游戏里可以用鼠标、组合键、甚至语音。但在 Genie 3 里只能上下左右。

这意味着只能测试导航类任务,没法测试复杂的交互。

没有多智能体

Genie 3 目前只支持单个角色探索。如果你想测试 SIMA 和其他 AI 或人类的协作/对抗,这个闭环做不到。

任务定义靠人工

"找到红色宝箱"这个任务描述是人写的。怎么判断任务是否完成?目前还需要额外的判别器或人工检查。这个环节没有自动化。

和传统仿真的对比

把 Genie 3 + SIMA 闭环和传统方法(比如用 Unity 或 Unreal 搭建仿真环境)对比:

方面 Genie 3 闭环 传统仿真
场景创建速度 秒级 天到周
物理准确性 不可靠 精确可控
视觉多样性 很高 取决于资产库
动作空间 有限(方向键) 完整(任意输入)
可复现性 低(每次生成不同) 高(确定性)
调试友好性 差(黑箱) 好(可检查状态)

两种方法各有适用场景。不是替代关系,是互补关系。

论文里的实验

DeepMind 在 SIMA 的论文里提到,他们用 Genie 2(Genie 3 的前身)生成的环境测试过 SIMA。

实验发现:

  1. SIMA 在 Genie 生成的环境里能完成简单的导航任务
  2. 复杂任务(多步骤、长距离)的成功率明显下降
  3. 在 Genie 环境里训练后,SIMA 在真实游戏里的表现有轻微提升

第三点很关键。虽然 Genie 的物理不准,但在里面训练还是有帮助的。可能是因为增加了视觉多样性,让 SIMA 见过更多不同的场景。

未来方向

如果这个闭环继续发展,可能的改进包括:

更丰富的动作空间

让 SIMA 能在 Genie 3 里做更复杂的动作,比如抓取物体、和 NPC 对话。

自动任务生成

不只是环境自动生成,任务描述也自动生成。比如"在这个世界里找一个有挑战性的任务"。

多智能体支持

在同一个 Genie 3 世界里运行多个 SIMA 实例,测试协作和竞争。

物理一致性提升

随着 Genie 3 的迭代,物理模拟会更准确,闭环的训练价值也会提升。

对研究者的意义

如果你在做机器人或智能体研究,这个闭环思路值得借鉴:

  1. 用生成模型快速创建多样化的测试环境
  2. 把传统仿真和生成式方法结合,各取所长
  3. 区分"训练"和"测试"的需求——生成环境可能更适合后者

不一定要用 Genie 3。你可以用 Stable Diffusion 生成静态场景,用其他模型生成动态内容。思路是通用的。

总结

Genie 3 + SIMA 闭环展示了一种可能性:用 AI 生成无限的训练环境,让另一个 AI 在里面学习。

这很酷,但目前还是实验性的。物理不准、动作有限、调试困难,这些问题都存在。

把它看作研究工具,而不是生产方案。在这个定位上,它是有价值的。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐