宣布自适应提示注入挑战赛(LLMail-Inject)优胜者

我们激动地宣布首届自适应提示注入挑战赛LLMail-Inject的优胜者!本次挑战赛于2024年12月至2025年2月举办,是第三届IEEE安全可信机器学习会议(IEEE SaTML)的四大官方竞赛之一。挑战赛的核心目标是提升对间接提示注入攻击的防御技术水平,并提高业界对这些新技术的认知。我们为研究人员提供了一个平台,使其能够针对特定防御机制开发和测试新型间接提示注入攻击。通过本次挑战赛收集的数据将帮助我们及其他机构评估现有防御方案,并开发更先进的新型防御技术。

挑战赛设计

挑战赛模拟了一个集成大语言模型(LLM)的邮箱客户端环境——LLMail服务,该服务可读取邮件并代表用户执行操作(包括发送邮件)。参赛者扮演攻击者角色,向(受害)用户发送邮件,其目标是使用户的LLM执行未经用户授权的特定操作。为实现此目的,攻击者需精心构造邮件内容,使其能被LLM检索并绕过相关提示注入防御机制。本次挑战赛中所有防御机制均对攻击者公开,允许参赛者针对每种防御调整攻击策略。

挑战场景根据上下文窗口中的邮件数量、攻击者邮件位置、攻击者邮件是否默认被检索以及是否需要从用户收件箱外泄数据等因素区分复杂度。我们采用了多种前沿防御技术,包括基于文本的分类器(Prompt Shields)[1]、基于模型隐藏状态的分类器(TaskTracker)[2]、LLM-as-a-judge、Spotlighting[3]以及所有防御技术的组合。针对每个场景和防御方案,我们提供了两个LLM模型:microsoft/Phi-3-medium-128k-instruct和采用指令层级训练[4]的GPT-4o-mini。

每个场景、LLM和防御方案的组合构成独立关卡。参赛团队角逐1万美元奖金池,以攻克尽可能多的关卡,首批攻克关卡的团队和攻克较少团队解决的关卡可获得额外加分。

比赛结果

挑战赛参与度极高!截至赛事结束,共有621名注册参赛者组成224支团队,累计提交370,724次攻击尝试(每次提交针对单个关卡)。我们正在全面分析提交数据,计划于未来数月发布详细分析报告。

祝贺所有参赛者——我们希望本次挑战赛为大家提供了学习AI安全的宝贵机会。特别祝贺排行榜前四名的团队!应众多参赛者要求,我们邀请这四支团队分享了他们的策略与参赛心得。

大奖得主:团队“TH3L053R5”

最高分团队仅由单名成员(@0xSombra)组成,其成功攻克36个关卡且多次成为首批通关者。该成员表示,采用迭代构建和测试提示词的方式比初始使用大型复杂提示词更有效。其正确指出,在真实场景中攻击者可能具备查看LLM输出的能力,但本次挑战表明开发成功攻击并非必须此条件。

“挑战赛的防御机制很有趣,但我更希望能够读取AI的响应(攻击者通常会先在自己的账户上测试)。”
——@0xSombra,大奖得主

一等奖:团队“Abyss Watchers”

趋势科技团队(成员:Jay K Liao、Ian CH Liu、Tony Kuo、Jannis Weigend和Danyael Manlangit)以36个通关数获得第二名。该团队表示,其早期在提示注入检测开发方面的经验带来显著优势。随着赛事推进,他们通过针对两种模型注意力行为定制攻击策略提升了排名。

“我们从竞赛中获得宝贵见解,这对未来工作大有裨益。”
——团队“Abyss Watchers”,一等奖得主

二等奖:团队“Enter a team name…”

二等奖得主Tran Huu Bach成功攻克35个关卡。虽未详细分享策略,但其指出该挑战对初学者友好,无需大量知识储备或阅读。

“我可以像解谜一样应对而非过度思考,这使竞赛充满乐趣,我对参赛体验非常满意。”
——Tran Huu Bach,二等奖得主

三等奖:团队“A helpful assistant”

三等奖得主Tsun-Han Chiang(同样来自趋势科技)亦攻克35个关卡。其主要策略是使用响应中的特殊令牌(如<|end|>、<|user|>、<|assistant|>),因观察到这些令牌可提高成功率。针对LLM-as-judge等防御方法的检测,其尝试用HTML(包含特殊令牌常用符号)绕过防御,并实验了其他语言添加随机字符或随机删除文本的方法。

“总体而言,这是非常有趣的挑战。通过阅读防御技术参考文献和分析攻击结果,我收获颇丰。当前工作涉及LLM预训练和监督微调,本次竞赛让我重新思考LLM安全的重要性。”
——Tsun-Han Chiang,三等奖得主

参赛反馈

我们举办本次挑战赛的目的之一是帮助更广泛社区了解间接提示注入,并提供安全而真实的实践环境。我们对总体参与人数感到欣喜,并收到多位匿名参赛者的积极反馈:

“我参加了LLMail Inject竞赛,这是一次极具启发性的体验。”
“我们非常享受竞赛过程!喜欢不同的场景设计,网站运行流畅。”
“我十分享受此次体验,并投入大量时间尝试突破所有防御。”
“我们在挑战过程中获得许多乐趣并学到大量知识。”
“感谢举办如此有趣的竞赛。我阅读了许多Arxiv论文,深入了解了提示注入技术乃至LLM整体知识。”
“感谢主办这场精彩竞赛,我们衷心感谢其中的努力和组织工作。”

若您参与挑战并希望分享反馈,欢迎发送邮件至:llmailinject@microsoft.com

宣布Re:LLMail-Inject挑战赛

我们激动地宣布新一届Re:LLMail-Inject挑战赛已于3月13日启动!竞赛网站仍为:https://llmailinject.azurewebsites.net/

本届挑战赛复用两个已有场景,但改进了防御机制:新增基于既往提交的高精度阻止列表(设计用于阻断首届挑战赛的成功提交及其释义版本),增加输入净化处理,更新LLM-as-a-judge提示词,升级至最新Prompt Shields模型,并更新TaskTracker以使用较新LLM。我们还修改了系统提示词和用户查询,以鼓励模型不遵循邮件中的指令。

本届竞赛为前三名团队提供6000美元奖金。我们邀请参赛者构思新策略、攻克新关卡,共同推动间接提示注入防御技术的发展!

参考文献

[1] Azure AI宣布推出针对越狱和间接提示注入攻击的Prompt Shields
[2] Sahar Abdelnabi等《Are you still on track!? Catching LLM Task Drift with Activations》
[3] Keegan Hines等《Defending Against Indirect Prompt Injection Attacks With Spotlighting》
[4] Eric Wallace等《The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions》

组织方

竞赛联合主办方:
Aideen Fay¹, Sahar Abdelnabi¹, Benjamin Pannell¹, Giovanni Cherubin¹, Ahmed Salem¹, Andrew Paverd¹, Conor Mac Amhlaoibh¹, Joshua Rakita¹, Santiago Zanella-Beguelin¹, Egor Zverev², Mark Russinovich¹, Javier Rando³
(微软¹, ISTA², 苏黎世联邦理工学院³, 核心组织者*)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐