代码漏洞检测卷疯了？这个团队让AI当“侦探”，130种漏洞识别率暴涨41.5%

读这篇论文的时候，我脑子里蹦出的画面是：MulVul像一支训练有素的“漏洞特遣队”——Router负责情报研判，Detector各司其职，每个队员都带着检索来的证据，还能从反馈中不断优化工作方法。这不只是技术上的突破，更像是一种思路上的转向：与其造一个全能神，不如搞一队各有所长的专家，再给它们配好工具和进化机制。

智能研发技术及工具

545人浏览 · 2026-03-03 17:12:10

智能研发技术及工具 · 2026-03-03 17:12:10 发布

一开始看到这篇论文标题的时候，我是有点拒绝阅读的——《MulVul: Retrieval-augmented Multi-Agent Code Vulnerability Detection via Cross-Model Prompt Evolution》。名字长得像在读绕口令，但实际读下来发现惊喜越来越多。

总体来说：就是让AI给代码找漏洞。这事儿听着简单，做起来难度却几何倍数上涨——漏洞类型成百上千，有的像内存溢出，有的像SQL注入，它们的代码“长相”完全不一样。你让一个AI模型包揽所有，就像让一个全科医生看所有疑难杂症，八成要误诊。

而这篇论文提出的MulVul框架，相当于搞了个“侦探团队”——有人负责初步分类，有人负责深度挖掘，还带着“参考书”（检索增强）去干活，关键是，他们的“工作手册”（提示词）还是自己进化出来的，不得不说很有研究价值。

困境：全能神医难当

在代码安全的世界里，寻找漏洞就像在沙滩上找特定的沙粒。

传统的基于大模型（LLM）的检测方法，往往试图训练或微调一个“全能神医”。不管是缓冲区溢出、SQL注入还是逻辑漏洞，统统扔给一个大模型去判断。

然而，现实很骨感。漏洞模式具有极强的异构性：

第一，漏洞类型太杂了。缓冲区溢出你要看指针运算，注入攻击你要追踪数据流——这根本不是同一个维度的推理。你让同一个模型学几百种漏洞的“指纹”，它学不来的。

第二，提示词没法规模化。针对130种CWE类型手写提示词？写到天荒地老。而且LLM这玩意儿，你对提示词改个标点符号，它可能就给你整出完全不同的输出。

还有一点：如果你搞多智能体系统（就是多个AI协作），一个AI犯错了传给下一个，错误会越滚越大——这就是所谓的“幻觉放大”。

所以MulVul要解决的，就是这三件事：覆盖多种漏洞类型、保证检测精度、自动优化提示词。

破局：像医院挂号一样搞检测

MulVul 的核心架构采用了 “粗到细”的策略，这套流程听起来非常像我们去医院看病的逻辑：

第一步：分诊台

当一段代码输入系统，首先迎来的不是专家，而是“Router Agent”（路由智能体）。它的任务不是确诊，而是分流。它会快速判断这段代码最可能属于哪几个大类（Top-k），比如是“内存错误”还是“注入错误”。这就好比分诊护士告诉病人：“你这肚子疼，去消化科看看。”

第二步：专家门诊

一旦确定了大方向，Router 就会把任务转发给对应的“Detector Agent”（检测智能体）。每个 Detector 都是该领域的资深专家，它只负责识别特定大类下的具体漏洞类型。比如“内存科”的专家，就只管死磕缓冲区溢出、越界读取这些具体问题。

这种设计不仅模拟了专家的深度思维，还极大地节省了计算资源——不需要为了一段简单的代码把几百个专家全喊出来开会。

跨模型提示词进化

MulVul 最精彩的部分，在于它如何解决“写提示词难”的问题。

传统的自动化提示词优化，通常是一个模型“自导自演”：自己写提示词，自己测，自己改。这有个大问题——“灯下黑”。模型容易陷入自我认知的偏差，很难跳出自己的思维定势去纠错。

MulVul 搞了个创新，叫跨模型提示进化。它把角色拆成了两个，让两个不同的顶级大模型互相“掐架”：把“生成器”和“执行器”分开。

生成器（比如Claude）：负责想提示词，变异提示词。

执行器（比如GPT-4o）：负责用这些提示词跑检测任务，返回分数。

生成器根据分数不断改进提示词，多轮进化后，得到最优的Router提示词和每个Detector的专用提示词。

这就好比是一个“左脚踩右脚”的升天过程： Claude 提出一个提示词方案，GPT-4o 拿去跑数据，跑完告诉 Claude：“你这提示词不行，这里误报了。” Claude 顿悟，立马修改方案，再交给 GPT-4o 跑。

通过这种 “解耦” ，生成和评估分离，打破了单一模型的自我修正偏差。最终进化出的提示词，既专业又抗造，完全不需要人工干预。

此外，为了防止AI凭空“脑补”漏洞，MulVul搞了个漏洞知识库。里面存的不是原始代码，而是用SCALE（结构化注释树）转换过的代码语义表示——相当于把代码翻译成人能看懂的自然语言描述。于是：

Router去知识库里检索全局证据，辅助判断大类。

Detector对比检索：不光找同类漏洞的正例，还找非漏洞代码（负例）和其他类别的难例——让AI学会区分细微差别。

这样一来，AI的推理就有据可依，不是瞎猜了。

实验结果解读

从技术可能到商业价值，这“最后一公里”的跨越，是当前的主要难点。成功的企业实践提供了一些共性路径。

从选择高价值且定义明确的业务场景开始进行试点，比追求大而全更重要。一个成功的AI试点项目通常始于一个具体的、能快速验证价值的工作流，例如基于历史标书数据智能生成新的投标方案。

组建跨职能团队至关重要，团队中需要融合IT人员、业务专家和合规人员。清晰的变革管理和

他们在PrimeVul数据集上测的，130种CWE类型，6968个漏洞函数，22万+个良性函数——类别极度不平衡，检测难度大。

整体性能结果显示：

类别级检测，Macro-F1达到50.41%，远超第二名（41.50%）

类型级检测，Macro-F1达到34.79%，比最强基线LLM×CPG（24.58%）高出10个百分点，相对提升41.5%

MulVul在保持高召回的同时，精度大幅提升——意味着误报更少，这在真实部署里太重要了。

少样本场景（few shot）：

真实世界很多漏洞类型样本极少，比如少于100个样本的CWE。MulVul在这儿表现贼猛——F1接近48%，其他方法只有25%左右。这说明检索增强确实能帮AI从相似类型里“偷师”。

消融实验（就是拆零件看效果）：

1.去掉检索：F1从34.56%暴跌到21.80%——检索是最重要的模块。

2.去掉提示进化：F1降到22.80%——证明跨模型进化不是花架子。

3.去掉多智能体：F1降到28.61%——分工合作确实有效。

路由参数k的平衡：

k=3时效果最佳（F1=34.79%）。k越大召回越高但精度下降，k越小精度高但容易漏报。3是个不错的平衡点。

进化后的提示词长啥样？

论文里放了个直观的对比案例：

初始提示词：就列了几个类别名称，让AI自己判断。结果AI经常把“注入”和“输入验证”搞混——也正常，毕竟没给定义。

进化后的提示词：加了类别定义（“注入会执行代码，输入验证只影响数据完整性”）、否定约束（“不要推断超出模式的漏洞”）、错误预防提示。这提示词一看就专业多了，AI按这个思路想，误报率自然降下来。

有意思的是，跨模型进化不仅自动生成了高质量提示，还学会了把容易混淆的点明确写进规则——这说明生成器在执行器的反馈里，真的“学到”了人类专家都没明说的经验。

同时，论文自己也承认了存在几个局限：

1.目前只测了C/C++代码，Java、Python啥效果不知道。

2.需要多次调LLM，计算成本不低，不适合大规模批处理。

3.提示的跨模型泛化性还得进一步验证——换个模型用这些提示词还灵不灵？

培训计划，能帮助员工理解AI的价值并将其融入日常工作。

AI带来的挑战正从“技术问题”转向“工程与商业问题”。这意味着，市场最稀缺的人才正从“算法科学家”转向懂得如何将AI可靠、合规、可盈利地融入现实业务的“AI产品经理”和“AI应用工程师”。

结语

能给我们带来两点启发：

1.从“大而全”转向“小而美”：在复杂的垂直领域，多智能体协作往往比单一的大模型更有效。分工明确，各司其职，才是处理复杂任务的高效解法。

2.打破模型自我闭环：利用不同模型之间的“认知差异”来进行对抗或协作，是优化提示词的一个极具潜力的方向。正如论文所示，Claude 写题，GPT 做题，这种“左右互搏”产生的效果，远超单打独斗。

当然，MulVul 也有局限性：推理成本较高（毕竟要调用多次模型），且目前仅在C/C++上验证过。但这依然不妨碍它成为2026年初代码安全领域的一抹亮色。

对于开发者而言，也许真正的“AI安全专家”时代，正在悄悄拉开帷幕。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

第6周学习总结：代码执行工具 + 多工具初步整合

本周完成了代码执行工具的安全沙箱设计，并为 Agent 添加了联网搜索能力，工具集扩展至 4 个，实现了从“只说不做”到“既说又做”的能力升级。

2048 AI社区

OBS直播使用教程：OBS美颜插件OBS美颜摄像头OBS美颜相机下载安装使用教程

2048 AI社区

收藏！2026年小白程序员必入局的高薪AI赛道（含10大吃香岗位）

2026年AI岗位激增12倍，月薪破6万，供需比仅0.97，企业高薪抢人。文章介绍了10个前景广阔的AI岗位，如AI科学家、大模型算法工程师、AI产品经理等，部分岗位适合非计算机背景者。提供内部转型、转行过渡、自学上岸、考取证书等四条普通人入局AI的路径，强调越早入局机会越大。---

2048 AI社区

所有评论(0)

查看更多评论

智能研发技术及工具

@2601_94959219

已为社区贡献4条内容

代码漏洞检测卷疯了？这个团队让AI当“侦探”，130种漏洞识别率暴涨41.5%

智能研发技术及工具

困境：全能神医难当

破局：像医院挂号一样搞检测

跨模型提示词进化

实验结果解读

结语

所有评论(0)

温馨提示：您尚未绑定手机号

智能研发技术及工具