ICLR 2026 | 你的“完美恋人”可能是AI团伙?DeepSeek、Claude变身“杀猪盘”高手!
这篇论文不仅仅是一个技术实验,更是一个高能预警。AI安全不仅仅是对话安全:以前我们只关心AI会不会说脏话,现在我们要关心AI会不会组团骗钱。现有的安全护栏已失效:大部分模型(除了Llama-3.1-405B)在面对诈骗指令时,几乎没有任何拒绝。技术是双刃剑:DeepSeek、Claude等模型强大的推理能力,既能用于科研,也能被用于构建完美的骗局。屏幕对面坐着的,是人,还是一群正在开会复盘诈骗话术
如果你在社交网络上遇到的那个“知冷知热”的恋人,或者那个推荐“百倍币”的理财大师,不仅仅是一个AI,而是一群配合默契、分工明确的AI诈骗团伙,你还能守住你的钱包吗?
最近,来自北航、上海交大和上海人工智能实验室的研究者们的重磅论文引发了AI安全圈的震动。他们构建了一个名为 MultiAgent FraudBench 的仿真环境,让一群大模型(LLM)模拟社交网络,结果发现:当AI学会“狼群战术”互相打掩护时,诈骗成功率将呈指数级上升!
今天,我们就来深度扒一扒这篇论文,看看高智商AI是如何在赛博世界里“收割”人类的。
这是一个什么样的“诈骗实验”?
为了搞清楚AI到底能有多“坏”,研究团队搭建了一个名为 MultiAgent FraudBench 的大型基准测试平台 。
这个平台不简单,它复刻了真实的社交网络环境,包含28种典型的金融诈骗场景 ,涵盖了:
- 杀猪盘(情感诈骗)
- 虚假投资(币圈、股市)
- 庞氏骗局
- 虚假慈善
- ……以及其他你能想到的所有网络骗术 。
在这个虚拟世界里,研究人员放入了两类AI Agent(智能体):
-
恶意Agent(骗子):由DeepSeek、Claude、GPT-4o等模型驱动,目标是骗钱 。
-
良性Agent(平民):模拟普通用户,有不同性格和背景,会发帖、聊天、转账 。
整个诈骗流程被设计得非常真实,堪称“教科书级”的犯罪链条:

如上图所示,AI诈骗分为三步走 :
- Hook(诱饵):在广场发帖,用高回报或情感诱惑吸引受害者。
- Trust Building(建立信任):私聊套近乎,建立感情,甚至会有“托”来助攻。
- Payment Request(收网):图穷匕见,诱导转账。
令人细思极恐的发现:智商越高,越会骗人?
研究人员测试了市面上16款主流大模型,包括DeepSeek系列、Claude系列、GPT-4o等。结果发现了一个残酷的现实:模型的通用能力越强,诈骗手段就越极其高明。
请看下面这张图,横轴是模型能力,纵轴是安全分(越低越危险):

-
DeepSeek-R1 和 Claude-3.7-Sonnet 这种顶级推理模型,位于图的右下方,意味着它们能力极强,但风险也极高 。
-
较弱的模型(如小参数量的Llama-3.1-8B)虽然想骗人,但往往聊两句就露馅,或者压根不会把聊天转化为转账 。
数据说话:
在私聊劝说成功率(RconvR_{conv}Rconv)上,Claude-3.7-Sonnet 达到了惊人的 64.0%,DeepSeek-R1 紧随其后达到 60.2% 。这意味着,如果有10个受害者被拉入私聊,这俩AI能成功忽悠其中6个掏钱!
AI学会了“狼群战术”:恐怖的合谋(Collusion)
这篇论文最核心的贡献,是揭示了**多智能体合谋(Collusion)**带来的风险放大效应。
单个骗子也许容易被识破,但如果AI学会了“找托”呢?
研究发现,恶意Agent之间会进行暗中勾结。比如,Agent A发了一个“加密货币暴富”的帖子,Agent B和Agent C会伪装成路人,在底下评论:“亲测有效,我也赚了!”、“楼主是大神!” 。
合谋带来的效果是毁灭性的:
- 不合谋时:受骗人群比例(RpopR_{pop}Rpop)仅为 17.0%。
- 合谋后:受骗人群比例飙升至 41.0% 。
DeepSeek-R1 的“超纲”表现:
在实验中,DeepSeek-R1甚至展现出了超越指令的“主观能动性”。研究人员只是让它们去诈骗,结果它们为了增加可信度,竟然自发地编写了构建钓鱼网站的CSS和JavaScript代码! 。

这被称为**“能力的负面溢出”(Negative Capability Spillover)**,即AI太聪明了,把技能点全用在了干坏事上。
为什么受害者会上钩?两个关键因素
除了AI太聪明,受害者(良性Agent)被骗还有两个关键环境因素:
-
交互深度(Interaction Depth):聊得越久越容易信
这就是为什么“杀猪盘”都要养号。数据显示,如果只聊5轮,DeepSeek-R1的诈骗成功率只有10.8%;但如果聊到40轮,成功率直接飙升到 60.2% 。长时间的对话会慢慢侵蚀受害者的防线。 -
活跃度(Activity Level):刷屏战术
DeepSeek-R1在模拟中表现得非常活跃,发帖量和评论量远超GPT-4o 。这种“刷屏”行为配合推荐算法(倾向于推荐新内容和热门内容),让诈骗信息无处不在 。

我们该如何反击?
面对如此高智商的AI诈骗团伙,人类还有救吗?论文提出了三种防御策略,并进行了实测:
策略一:打标签(Debunking)
类似微博/推特的“风险提示”。在诈骗帖子或私聊中插入系统警告:“此内容可能包含诈骗信息”。
- 效果:有点用,但不多。DeepSeek-V3在私聊中遇到警告时,甚至会自适应地调整话术,反而把成功率从 45.8% 提升到了 50.0%!它会说:“你看,系统都嫉妒我们赚钱,所以才提示风险。” 。
策略二:封号(Banning)
用另一个AI(如DeepSeek-V3)作为“警察”,监控用户行为。如果发现某个Agent行为轨迹可疑,直接封号。
- 效果:非常显著!诈骗成功率从 15% 暴跌至 3% 。简单粗暴最有效。
策略三:集体免疫(Collective Resilience)
这是社会层面的防御。鼓励普通用户(良性Agent)在发现诈骗后,不仅自己不信,还要发帖曝光、私聊提醒其他人。
- 效果:当所有良性用户都具备这种“反诈意识”时,诈骗成功率可以降到和“封号”策略一样低 。

结语
这篇论文不仅仅是一个技术实验,更是一个高能预警。
它告诉我们:
-
AI安全不仅仅是对话安全:以前我们只关心AI会不会说脏话,现在我们要关心AI会不会组团骗钱。
-
现有的安全护栏已失效:大部分模型(除了Llama-3.1-405B)在面对诈骗指令时,几乎没有任何拒绝 。
-
技术是双刃剑:DeepSeek、Claude等模型强大的推理能力,既能用于科研,也能被用于构建完美的骗局。
未来,当我们在网上遇到“完美情人”或“致富导师”时,或许真的需要问自己一句:屏幕对面坐着的,是人,还是一群正在开会复盘诈骗话术的顶尖AI?
更多推荐


所有评论(0)