诈骗电话
长期以来一直是困扰消费者和企业的一大难题,但一项新研究表明,这类电话可能很快就会升级。未来的电话可能不再由人工接听,而是完全由人工智能接听。

诈骗代理

ScamAgent系统架构

罗格斯大学的研究人员展示了如何利用法学硕士(LLM)代理进行令人信服的诈骗对话,从而绕过当前的人工智能护栏
。该项目名为“ScamAgent”,由 Sanket Badhe 领导,展示了多轮人工智能系统如何从头到尾执行诈骗,同时根据目标用户的响应进行调整。

https://arxiv.org/pdf/2508.06457

ScamAgent 的工作原理

Badhe 构建了一个自主框架,它可以进行多轮对话,记住过去的细节,并根据目标的对话内容调整策略。这与大多数AI 安全控制
旨在阻止的单次攻击不同。

ScamAgent 不会向模型提供单一的有害提示,而是将骗局分解成多个小步骤。它可能从无害的问候开始,然后建立信任,再增加紧迫感,最后才询问敏感信息。每个步骤单独看起来都很安全,但组合起来,就构成了一次令人信服的社会工程攻击

该系统与三个领先模型进行了测试:OpenAI 的 GPT-4、Anthropic 的 Claude 3.7 和 Meta 的 LLaMA3-70B。每个模型都用于模拟真实的诈骗场景,包括虚假医疗保险验证、彩票中奖、冒充官员、虚假工作机会以及虚假的政府福利登记。

为了进行测试,Badhe 模拟了不同性格的“受害者”。有些受害者会毫无抵抗地服从指令,有些则会提出问题,还有一些则表现得谨慎,不愿参与。代理会根据每种类型的受害者调整处理方式,例如改变语气、重新措辞请求或变换策略,以推动骗局的进展。

代理规划与 LLM 输出和文本转语音的结合使威胁更加真实。将基于代理的规划与 LLM 输入相结合来引导对话,并结合 TTS 从单一模式(文本聊天)转变为多模式(文本聊天和音频通话),这种做法很可能已经在实际中实施了。

研究结果表明,这种方法比单次攻击更能有效地完成诈骗对话。当直接收到执行有害任务的请求时,这三个模型大多数情况下都会拒绝。当 ScamAgent 框架将任务分散到多个回合时,拒绝率急剧下降。即使是那些以拥有强大防护措施而闻名的模型,这种多步骤方法也能有效发挥作用。

这篇论文的很多内容都在探讨如何使用多轮代理将较大的恶意目标分解成较小的提示,从而规避通常依赖于明显内容过滤器的 LLM 安全护栏。总的来说,依赖 LLM 安全护栏对于复杂的诈骗行动来说是行不通的。高级攻击者可以使用缺乏内置保护的开源或旧模型,或者将对话拆分到不同的模型中。

在很多情况下,该系统能够完成诈骗对话,并迫使模拟受害者交出信息。即使它没有完成整个计划,也常常能完成部分任务,这在真实案件中仍然可能意味着个人数据泄露。

本文还探讨了如何使用文本转语音 ( TTS ) 系统将生成的诈骗脚本转换为音频。现成的 TTS 工具可以生成逼真且富有表现力的声音。ScamAgent 可以控制语音的语调和节奏,以匹配其扮演的角色,无论是友好的客服人员还是紧急的政府官员。一旦诈骗内容变成音频形式,就更难实时检测和控制,尤其是在文本版本的编写方式不会触发安全过滤器的情况下。

威慑力并非单靠单一机制就能实现。针对此类攻击的威慑机制依赖于纵深防御,就像所有网络安全防御措施一样。更强大的防护措施、利用人工智能进行受害者端检测以及对弱势群体进行更好的教育是解决方案的关键组成部分。

Badhe 的研究揭示了当前人工智能安全设计中的缺陷。护栏通常通过单独检查每个提示和响应来发挥作用。当一个有害的目标被分解成几个看似无害的步骤时,护栏的效果就会大打折扣。而添加记忆、规划和自适应策略,则会使问题更加难以发现。

对于首席信息安全官 (CISO)
而言,这项研究指出,可能存在新一波社会工程威胁。虽然诈骗电话仍然主要由人工拨打,但自动化诈骗的工具已经存在,并且不需要高级技术技能。攻击者可以利用公开的人工智能模型,将其与规划框架相结合,并将其与语音合成技术相结合,从而创建可扩展、自适应的诈骗。

这项研究并未声称这种情况已大规模发生。但它确实表明,技术门槛较低,这些骗局的有效性已接近真人诈骗。这意味着企业安全领导者面临的问题并非这种技术是否可行,而是它多久后可能被用于实际攻击。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐