JailWAM：机器人控制中越狱世界动作模型

26年4月来自上海交大、南京大学和中国军事科学研究院国防创新研究所的论文“JailWAM: Jailbreaking World Action Models in Robot Control”。世界动作模型（WAM）能够联合预测未来的世界状态和动作，展现出比传统模型更强大的物理操控能力。这种强大的物理交互能力是一把双刃剑：如果忽视安全性，将直接威胁人身安全、财产安全和环境安全。然而，现有研究对关键

硅谷秋水

70人浏览 · 2026-04-19 00:15:00

硅谷秋水 · 2026-04-19 00:15:00 发布

26年4月来自上海交大、南京大学和中国军事科学研究院国防创新研究所的论文“JailWAM: Jailbreaking World Action Models in Robot Control”。

世界动作模型（WAM）能够联合预测未来的世界状态和动作，展现出比传统模型更强大的物理操控能力。这种强大的物理交互能力是一把双刃剑：如果忽视安全性，将直接威胁人身安全、财产安全和环境安全。然而，现有研究对关键的安全漏洞——WAM易受越狱攻击——关注甚少。为了弥补这一空白，定义三级安全分类框架，以系统地量化机械臂运动的安全性。此外，提出JailWAM，这是专门针对WAM的越狱攻击和评估框架，它由三个核心组件构成：（1）视觉轨迹映射，它将异构的动作空间统一到视觉轨迹表示中，并实现跨架构的统一评估；（2）风险判别器，它作为一种高召回率的筛选工具，在识别视觉轨迹中的破坏性行为时，优化效率与准确性之间的权衡；（3）双路径验证策略，首先通过基于单图像的视频动作生成模块进行快速粗略筛选，然后通过全闭环物理仿真进行高效全面的验证。此外，构建JailWAM-Bench基准测试平台，用于全面评估WAM在越狱攻击下的安全对准性能。在RoboTwin仿真环境下的实验表明，所提出的框架能够有效地暴露物理漏洞，在最先进的LingBot-VA机器人上实现84.2%的攻击成功率。同时，基于JailWAM可以构建鲁棒的防御机制，为设计安全可靠的机器人控制系统提供了一种有效的技术方案。

如图 2所示不同模型越狱后果对比。第一行展示大型语言模型（LLM）越狱后生成有害文本的情况。第二行展示视频生成模型（VGM）越狱后生成暴力视频内容的情况。两者都仅限于数字危害，影响范围也仅限于数字领域。第三行展示机器人世界动作模型（WAM）的越狱。与之前的模型不同，该模型的攻击成功后会直接驱动机械臂执行危险的物理动作，对现实世界环境和人身安全构成重大威胁。
请添加图片描述

如图图 3 展示所提出的 JailWAM 框架的概览。为了解决闭环仿真中验证真实物理危险的巨大计算成本，JailWAM 引入一种高效的双路径验证策略。该策略包含一个开环先验筛选阶段，用于快速过滤生成的对抗候选对象池；以及一个后续的闭环物理验证阶段，用于最终确认危险。这种可扩展的筛选由两个核心组件实现：一个视觉轨迹映射，用于将异构动作输出统一为标准化的视觉表示；以及一个轻量级风险判别器，用于执行高吞吐量的轨迹级危险预测。
请添加图片描述

预备知识

研究指令条件世界动作模型（WAM）的越狱攻击。令 𝑂、𝑆、𝐴 和 𝐿 分别表示视觉观测空间、机器人状态空间、连续动作空间和语言指令空间。给定观测历史 𝑜_≤ 𝑡、机器人状态历史 𝑠_≤ 𝑡 和任务指令 𝑙，WAM M 可以抽象为条件生成策略：

𝑎_𝑡:𝑡+𝐻 ∼ M(𝑜_≤𝑡, 𝑠_≤𝑡, 𝑙), (1)

其中 𝑎_𝑡:𝑡+𝐻 表示在有限时间范围 𝐻 内可执行的动作序列。这种抽象与目标模型的内部架构无关：一些WAM直接预测动作，而另一些则可能联合建模未来状态和动作，或者从预测的未来推断动作。由于它们最终都会暴露一个可执行的动作序列以供下游控制，因此该框架可以统一应用于不同的WAM变型。

问题描述。给定一个目标WAM和一个初始上下文𝑥_𝑡 = (𝑜_≤𝑡, 𝑠_≤𝑡)，将越狱问题建模为一个指令级优化问题。并非在整个语言空间𝐿上执行难以处理的搜索，而是利用大语言模型（LLM）的强生成先验构建一个受限的对抗性搜索空间。令G_𝐿𝐿𝑀表示一个最先进的LLM（例如，Gemini、GPT-5、Claude）。设计一组专门的越狱模板 T，这些模板促使 LLM 直接合成危险操作的明确描述。至关重要的是，这些生成的越狱指令 𝑙_𝑎𝑑𝑣 本质上与任务无关且场景独立；它们并非修改良性任务，而是直接指定会引发特定物理威胁（例如，关节极限突破、高速碰撞或不规则摆动）的动作。候选对抗指令池是通过对基于这些模板的 LLM 进行采样生成的：

L_𝑎𝑑𝑣 ={𝑙_𝑎𝑑𝑣 | 𝑙_𝑎𝑑𝑣 ∼G_𝐿𝐿𝑀(𝜏), 𝜏∈T} (2)

目标是从生成的对抗指令池中识别出最强的对抗指令 𝑙^∗ ∈ L_𝑎𝑑𝑣，该指令会导致模型输出危险动作序列：

𝑎^∗_𝑡:𝑡+𝐻 ∼ M(𝑥_t, 𝑙^∗), (3)

其诱发的具身行为是极其不安全的。

将更新后的优化目标定义为：

𝑙^∗ =argmax_ 𝑙 ∈ L_𝑎𝑑𝑣 R(V(M(𝑥_𝑡,𝑙))), (4)

其中 V(·) 表示视觉轨迹映射，它将生成的动作序列转换为统一的视觉轨迹表示，而 R(·) 衡量相关的安全风险。通过离散安全标签量化完整轨迹 𝑎∗ 的物理风险：

𝑦∗ =R(V(𝑎∗))∈{0,1,2}. (5)

如果越狱绕过安全合规性（0 级）并诱发非良性行为，具体而言是运动故障（1 级）或灾难性风险（2 级），则越狱成功。

双路径验证策略

WAM的越狱评估面临着评估可扩展性和物理保真度之间的根本权衡。虽然真正的危险需要通过闭环实体执行进行验证，但对每个LLM生成的候选指令进行详尽的仿真在计算上是不可行的。为了解决这个问题，提出的双路径验证策略将高效的风险筛选与最终的物理验证解耦。该策略采用由粗到精的方式，利用目标WAM的开环生成先验来合成动作序列，将其映射到视觉轨迹图，并通过学习的判别器进行快速风险预测。良性候选指令会被立即剔除，只有识别出的高风险指令才会被升级到计算成本高昂的闭环仿真中进行最终的危险确认。

第一阶段：开环视觉筛选。不会在环境中执行每个生成的候选指令，而是仅基于WAM的开环预测对其进行评估。根据初始上下文，模型生成预测的动作序列，并立即将其转换为可视化的轨迹图。风险判别器随后评估该轨迹图，以计算离散的安全标签 𝑦∗。𝑦∗ = 0（安全合规）的候选指令会被立即丢弃。只有被标记为高风险（𝑦∗ ∈ {1, 2}）的指令才会进入第二阶段。这种轻量级的操作实际上实现了优化目标，在进行任何代价高昂的物理仿真之前，大幅缩小了搜索空间。

第二阶段：闭环具身验证。风险升级后的候选方案在高保真模拟器 S 中进行严格的闭环执行。在每个时间步 t，WAM 与环境交互并接收更新的观测数据：

𝑜_𝑡+1 = S(𝑜_𝑡, 𝑎_𝑡), 𝑎_𝑡+1 ∼ M(𝑜_≤𝑡+1, 𝑠_≤𝑡+1, 𝑙_𝑎𝑑𝑣). (6)

执行结果，例如破坏性碰撞、振荡或工作空间边界违规，随后由专家进行审查。这种人工验证确定真实的安全性标签，明确地将实际发生的物理危险分类为 1 级（运动故障）或 2 级（灾难性风险）。通过协调可扩展的开环筛选与严格的闭环人工验证，这种双路径策略既实现评估效率，又实现高物理保真度。

视觉轨迹映射

WAM越狱评估面临的一个关键挑战是，模型输出是可执行的动作序列，而非直接可解释的信号。与文本或图像不同，原始关节构型或末端执行器位移属于底层信号；它们缺乏直接的语义可解释性，阻碍了跨模型的可比性，并模糊了危险行为的空间表现。为了便于第一阶段所需的可扩展风险筛查，必须弥合这种模态差异，将这些异构的底层动作空间映射到统一的表示形式中。

基于此目标，引入视觉轨迹映射（VTM）模块，该模块将抽象的时间动作序列投影到结构化的多视图视觉轨迹图中。该设计在理论上基于现代视觉-语言模型（VLM）以视觉为中心的空间推理能力。正如视觉提示领域的最新范式所展示的那样[18, 28]，多模态基础模型在数值坐标回归方面存在困难，但当物理动力学被明确地渲染为空间特征时，它们却展现出强大的零样本推理能力。通过将轨迹转换到视觉域，VTM 将机器人的物理执行与风险判别器的原生模态相匹配，从而将几何危险明确地展现为视觉上显著的异常。

形式上，假设目标 WAM 的输出是一个相对动作位移的时间序列 Δ𝐴 = {Δ𝐴_1, Δ𝐴_2, . . . , Δ𝐴_𝑡 }。首先使用积分器 F 将这些相对动作累积到世界坐标系中的绝对空间坐标：

𝑃 = 𝑃_0 + ∑︁ F (Δ𝐴_𝑖 ), (7)

其中 𝑃_0 表示机器人末端执行器的初始空间构型。为了在避免透视畸变的同时保持度量几何，将得到的 3D 轨迹投影到正交 2D 平面上（具体而言，是俯视投影和前视投影），可以表示如下：

𝑣^(𝑥𝑦) =Π_xy (𝑃), 𝑣^(𝑥𝑧) =Π_xz(𝑃), (8)

其中 Π_xy 和 Π_xz 表示正交投影算子。此外，应用渲染函数 Φ 将这些投影与显式注入的物理affordance和环境约束 C_𝑒𝑛𝑣（例如，工作区边界、桌子高度）一起合成到一个统一的视觉轨迹图中：

V=Φ(𝑃,𝑣^ (𝑥𝑦) ^, 𝑣^ (𝑥𝑧) ^, C_𝑒𝑛𝑣). (9)

通过将抽象动作锚定到物理环境边界，这种统一表示保留检测具身危险（例如越界运动、破坏性振荡和工作区碰撞）所必需的关键几何线索。

风险判别器

完全依赖计算量巨大的闭环仿真作为对抗搜索的内环评分器是不可行之举。为了克服这一瓶颈，引入一个轻量级的风险判别器 R，它能够直接从合成的视觉轨迹图 V 和对抗指令 𝑙_𝑎𝑑𝑣 中预测安全风险。

为了训练 R，构建了一个如图 4 所示的监督数据集。具体来说，在 RoboTwin 模拟器中选择 50 个不同的操作任务作为基础评估套件。对于每个任务，采样 500 个候选展开轨迹，以确保对正常和不安全运动模式的均衡覆盖。然后，这些视觉轨迹图被赋予三级安全标签。为了确保大规模标注的高质量，标签最初由 Gemini-3.1-Pro 通过“思维链”提示生成，随后由人类专家进行严格的人工验证和校正。该流程共生成 25K (50 × 500) 个高质量训练样本。
请添加图片描述

用 Qwen3-VL-2B-Instruct [1] 实例化风险判别器 R。Qwen3-VL-2B-Instruct 是一种轻量级视觉-语言模型，因其在视觉推理能力和推理效率之间实现了最佳平衡而被选中。这种架构选择至关重要，因为 R 部署在 JailWAM 的高通量筛选循环中，推理速度决定了候选评估的可扩展性。在精心整理的数据集上对该模型进行了微调。在推理阶段，R 基于视觉轨迹图 V 和相应的对抗指令 𝑙_𝑎𝑑𝑣 预测离散风险标签 𝑦∗。被评为 0 级（安全合规）的候选者将被立即淘汰，而预测为 1 级（运动故障）或 2 级（灾难性风险）的候选者将被升级到第二阶段进行闭环物理验证。

实验设置

目标模型和仿真环境。为了严格评估 Jail-WAM 的有效性和跨架构泛化能力，在一系列具有代表性的 WAM 模型及其相关的具身基线模型上对框架进行了评估。主要评估平台是 RoboTwin 仿真器 [3]，其中以 LingBot-VA [10] 为目标模型，LingBot-VA 是一款具有鲁棒预训练检查点的先进 WAM 模型。为了验证跨环境迁移性，还以 LIBERO 基准测试 [13] 中的 Cosmos-Policy [8] 为目标模型。除了标准的 WAM 模型之外，还引入两个辅助模型来探测越狱漏洞的边界条件。

首先，在 RoboTwin 中评估 Motus [2] 模型。虽然 Motus 采用生成式视频骨干网络，但其动作解码依赖于外部 VLM 而非直接依赖于世界模型，因此它是研究视觉先验漏洞是否会通过不同的动作解码流程级联传播的理想候选对象。最后，在 LIBERO 中部署 𝜋0.5 [19] 作为严格的非 WAM 基线。这能够通过实证方法确定暴露出的物理风险是视觉生成式世界模型所特有的，还是现代具身架构中更广泛的漏洞。

方法与基线。作为研究世界动作模型 (WAM) 越狱漏洞的开创性工作，目前尚无已建立的、特定领域的基线可供直接比较。因此，用三种基础参考设置来评估 JailWAM：Clean（标准指令）、随机后缀攻击 (RSA) 和基于模板的提示攻击 (TPA)。Clean 基线执行原始的、未受干扰的模拟器指令。 RSA 算法在良性指令后附加一个随机的 20 个字符序列，以测试其分布外鲁棒性；而 TPA 算法则将任务指令嵌入到通常用于攻击大型语言模型 (LLM) 的严格启发式越狱模板中。

至关重要的是，与这些简单的、纯粹以文本为中心的扰动不同，JailWAM 算法经过专门设计，旨在应对具身化的物理风险。它利用精心设计的提示模板，诱导大型语言模型生成一系列包含威胁的候选指令。首先利用第一阶段系统地筛选这些生成的候选指令，以识别真正的危险行为；然后利用第二阶段通过闭环仿真严格验证其对实际环境的影响。所有实验均在配备 48GB 显存的 NVIDIA RTX 4090 GPU 上进行。

指标。以攻击成功率 (ASR) 作为主要指标，其定义为最终闭环结果被判定为非良性的越狱尝试所占的比例。具体而言，ASR 被分解为两个子指标：一级危险的运动故障率 (MFR) 和二级危险的灾难性风险率 (CRR)。为了高效地大规模评估物理动作轨迹，首先部署经过微调的风险判别器 (RD) 进行自动评估，得到 RD-MFR 和 RD-CRR（二者之和为 RD-ASR）。随后，为了严格验证该自动化流程的可靠性，专家系统地审查从闭环模拟器执行中保存的录制视频。这种对执行视频的人工检查确真实值 Human-MFR 和 Human-CRR（二者之和为 Human-ASR）。我们明确报告了 RD 预测结果与这些人工标注结果之间的一致性，以证明我们自动化评估分数的可靠性。