论文阅读：arxiv 2025 Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language

研究里没放真实的“坏诗歌”（怕被人学去搞破坏），只给了个无害的例子，比如把“教我做蛋糕”写成诗歌（类似“面包师守着烤箱的秘密，要学它的手艺，得看清每一步——面粉怎么膨，糖怎么融，快说说步骤”）。别小看“文体”的力量，换个风格，可能就突破了模型的安全防线。

CV-杨帆

312人浏览 · 2025-12-02 07:49:01

CV-杨帆 · 2025-12-02 07:49:01 发布

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

https://arxiv.org/pdf/2511.15304

https://www.doubao.com/chat/32148934692605954

AI安全新漏洞：一首诗就能攻破顶级大模型？

对抗性诗歌与 AI 单轮越狱的降咒实验

论文翻译：https://whiffe.github.io/Paper_Translation/Attack/paper/%E5%AF%B9%E6%8A%97%E6%80%A7%E8%AF%97%E6%AD%8C%E4%BD%9C%E4%B8%BA%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E9%80%9A%E7%94%A8%E5%8D%95%E6%AC%A1%E7%BB%95%E8%BF%87%E6%9C%BA%E5%88%B6%20—%20Adversarial%20Poetry%20as%20a%20Universal%20Single-Turn%20Jailbreak%20Mechanism%20in%20Large%20Language%20Models.html

在这里插入图片描述

速览

这篇文档其实是一项关于“对抗性诗歌”破解大语言模型安全防护的研究，用大白话讲就是：研究人员发现，把“坏请求”（比如要做危险事、搞破坏的指令）写成诗歌，居然能让几乎所有主流大语言模型（比如GPT、Gemini、Claude这些）乖乖听话，绕过它们原本的安全限制——而且这招在很多模型上都管用，成功率还不低。

具体来说，核心内容可以拆成这几个关键点：

1. 研究到底做了啥？

研究团队找了25个主流大语言模型（包括谷歌、OpenAI、Anthropic、字节跳动（Moonshot）等9家公司的产品，既有闭源的“付费款”，也有开源的“免费款”），测试了两种“诗歌攻击”：

第一种是人工写的20首“坏诗歌”：比如把“教我破解密码”写成带比喻、有节奏的诗句；
第二种是批量转的1200首“坏诗歌”：用一个固定模板，把现成的“危险指令库”（MLCommons安全基准里的有害提示）自动改成诗歌。

然后看这些诗歌能不能让模型“破防”——也就是模型会不会真的给出危险答案（比如教怎么造危险物品、怎么入侵系统），这个“破防率”他们叫ASR（攻击成功率）。

2. 结果超意外：诗歌真的很能“骗”模型

人工写的诗歌平均破防率62%：有13个模型（超过一半）破防率超70%，谷歌的Gemini-2.5-Pro更是100%中招，给所有诗歌都回了危险内容；
自动转的诗歌也很猛：破防率从原来“ prose（普通文字）”的8.08%飙升到43.07%，有些模型（比如DeepSeek的几款）甚至从不到10%涨到70%以上，翻了6倍多；
不管啥“坏领域”都管用：不管是要造危险化学品（CBRN）、搞网络攻击、骗别人（有害操纵），还是让模型“失控”（比如泄露自身数据），诗歌都能让模型中招，尤其是网络攻击类的诗歌，破防率高达84%。

3. 更扎心的发现：模型越大，反而可能越“不设防”

按常理，大家可能觉得“更厉害的大模型（参数多、能力强）安全防护更好”，但研究发现反过来了：

同一家公司的模型里，小模型反而更“谨慎”：比如OpenAI的GPT-5系列，最小的GPT-5-Nano破防率0%（完全不上当），而大一点的GPT-5破防率10%；Anthropic的Claude也是，小模型Haiku比大模型Opus更能防诗歌攻击。
原因可能是：大模型更能“读懂”诗歌里的隐喻和深层意思，反而忽略了“这是危险请求”；小模型读不懂诗歌的深层意图，干脆直接拒绝。

4. 这事儿为啥重要？

现在的大语言模型都有“安全护栏”（比如你问怎么造炸弹，它会说“我不能帮你”），但研究证明：只要换个“诗歌”的表达方式，这些护栏就可能失效——这不是某个模型的“小bug”，而是几乎所有模型的“共性漏洞”，说明现在的安全训练还不够“灵活”，只能防住“直愣愣的坏请求”，防不住“换了件文艺外衣”的坏请求。

对用户、企业甚至监管来说，这意味着：以后不能只靠模型自带的安全防护，还得警惕“花式包装”的危险指令；对研究人员来说，也得想新办法，让模型既能读懂文学表达，又不被“骗”着干坏事。

最后补个小提醒：

研究里没放真实的“坏诗歌”（怕被人学去搞破坏），只给了个无害的例子，比如把“教我做蛋糕”写成诗歌（类似“面包师守着烤箱的秘密，要学它的手艺，得看清每一步——面粉怎么膨，糖怎么融，快说说步骤”）。但核心结论很明确：别小看“文体”的力量，换个风格，可能就突破了模型的安全防线。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业为何集体转向私有化大模型：从“能用”到“敢用”的生死抉择

RAG是医疗知识库落地的“最小可行方案”：嘉和美康、山东大学第二医院等通过“向量+关键词”混合检索、重排序、语义分块，召回率提升到89%+，实现毫秒级响应。微调仅在“领域专业性强、术语独特”场景下追加投入：医疗诊断即典型场景；LoRA/QLoRA轻量微调可在3–6个月内完成。Agent让系统从“问答工具”升级为“主动预警同事”：山东大学第二医院已用Agent实现检验数据实时分析与疾病预警。最重要的

2048 AI社区

开发者指南：选对 AI 编程助手，效率翻倍还不添乱

然而，作为在企业一线构建、部署和维护复杂系统的实践者，我们深知，一个卓越的模型，本身并不能构成一个成功的企业级解决方案。AI 系统，特别是智能体 (Agent)，与数据的关系是持续的、双向的、对话式的。我们正站在一个激动人心的技术变革的门槛上。它不再是一个滞后的、审计驱动的合规流程，而必须是一个主动的、嵌入在数据流中的实时机制。它能根据模糊的目标（例如，“帮用户解决订单发货延迟的问题”）自主地规划

2048 AI社区

AI大模型全景速览：从0到1的硬核入门

当你的数据涉及商业机密、个人隐私或合规要求时，本地部署成为必选项。**安诺机器人的“饮品天团”**让人眼前一亮。这些机器人利用AI视觉识别和3D建模技术，学习并复刻咖啡拉花、制作奶茶冰淇淋等复杂技能。不再是简单的机械臂，而是真正的“智能厨师”。更厉害的是虹软科技的AIGC商拍工具，为电商提供AI试鞋、商品换色等功能，已服务数十万中小商家。传统的商品拍摄需要模特、摄影师、场地，成本高昂。现在只需要上