AI 浪潮正席卷软件行业,程序员们在 FOMO 情绪和效率诉求的双重驱动下,越来越多地把 AI 编程工具融入日常工作,“Vibe Coding”逐渐成为一种新的开发常态。

然而,近期 Replit AI 编程平台发生误删生产数据库的事件,为热烈的 AI Coding 氛围蒙上阴影。事件一出,迅速引发业内关于 AI 编程安全性的广泛讨论:AI 生成的代码究竟有多安全?在享受效率红利的同时,如何真正保障 AI Coding 的安全性?


01

真实开发场景下,AI生成代码的安全性研究

为此,我们邀请国内领先的AI安全企业----安恒信息做了一次双层次实验,并且搭建了一套完整的“多智能体(MCPs)协同驱动的自动化安全审计体系”,系统性评估AI代码生成工具在不同条件下的安全表现。

图片

实验框架图 (点击放大)

实验目标主要聚焦两个方向:评估AI生成代码的基础安全性、探索安全设计对代码安全的影响机制。

实验选取国内外主流的10款 AI 代码生成工具,设计涵盖代码片段任务与完整项目的提示词集合,生成真实的代码样本。随后,依托数字员工平台,构建“多引擎审计 → AI 研判降噪 → AI 深度审计 → AI 修复建议 → 报告生成”的全自动化流程,实现对AI生成代码的系统化漏洞评估。

图片


02

你的代码正在“裸奔”:AI默认生成的

代码是不安全的

测评结果显示,AI在默认状态下生成的代码存在严重的安全隐患。如果不加任何限制,代码上线几乎等同于“裸奔”。因此,至少要引入安全提示词和静态安全测试作为最低安全门槛。

1、AI默认生成代码=裸奔!AI写的Bug比你想象的多

在无安全设计的情况下,AI生成代码的平均缺陷密度约为 11.28 个/千行代码,部分模型甚至超过 20 个/千行。高频出现的问题包括:SQL注入、路径遍历、弱加密、硬编码密钥等等。

图片

不同AI编程模型生成代码的漏洞数量(每千行代码) (点击放大)

图片

AI生成代码的漏洞类型分布 (点击放大)

更令人担忧的是,高危漏洞比例占比惊人,这意味着一旦投入生产环境,后果可能极其严重。

图片

AI生成代码的漏洞风险等级分布 (点击放大)

2、增加安全提示词后,缺陷密度下降一半

通过引入安全提示词,缺陷密度从 11.28 个/千行降至约 7.41,再进一步使用增强型提示词,降至 5.67 个/千行。换句话说,安全提示词能让缺陷数量几乎减半,效果非常显著。

图片

加入安全提示后各模型生成代码的漏洞数量变化(每千行代码) (点击放大)

图片

平均缺陷密度变化(每千行代码) (点击放大)

3、真刀真枪测评:10大AI编程工具安全性

先看合规性:漏洞榜单对照

CWE Top 25 和 OWASP Top 10 是国际公认的核心 Web 应用安全风险清单。我们将 AI 生成代码中的漏洞类型与这两大基准对照,如果触发了对应弱点,就视为“不合规”;反之,则合规度越高。

通过统计命中率并转换为排名,可以直观量化不同模型在规避行业标准漏洞方面的表现。表 1、表 2 展示了不同提示词条件下的 CWE / OWASP 合规排名。

图片

表1-不同提示词加入后各模型的CWE合规排名

图片

表2-不同提示词加入后各模型的OWASP合规排名

再看综合评分:谁更稳健

综合评分按“安全30% + 合规20% + 代码质量15% + 安全成熟度15% + OWASP10% + CWE10%”计算。

图片

表3-不同提示词加入后各模型的综合排名

结果很有意思:在 无提示词 或仅用 全局提示词 时,各模型差异不大,几乎都踩了不少坑,导致排名大量并列。

但一旦加入 增强提示词,分化就出现了——并列情况明显减少,有的模型安全性迅速拉开差距。

换句话说:安全提示词,确实能让模型“收敛乱跑”,规避更多风险。从源头降低了高危缺陷发生的概率。


结论

总的来说,在无安全提示词的情况下,各模型的表现差异并不大,都存在较多不合规项;加入全局安全提示词后,达到合规基线的模型占比明显提升且方差收敛。

AI 写代码默认不安全,必须叠加外部安全体系加固,才有可能达到上线标准。


03

AI Coding时代,如何做安全审计?

如何应对以上问题,安恒提出了一套自己的实践思路,经过充分研究以及在多家公司成功实践的基础上,依托数字员工平台,提出“多智能体(MCPs)驱动的自动化安全审计体系”。覆盖了从威胁建模、代码生成、审计研判的全流程。由多个MCP协同完成,从设计到报告输出形成闭环,框架包括六个部分:

1)AI威胁建模MCP。根据需求自动生成安全约束,确保后续开发带有安全上下文。该智能体能够自动推演攻击路径与威胁场景,如:支付绕过、越权访问、敏感数据泄露等,并且生成与业务风险高度耦合的安全控制建议。

2)多引擎融合审计MCP。融合多种源代码审计引擎,实现引擎间优势互补,消除检测盲区,同时支持灵活扩展,输出更全面的审计结果。

3)开源组件风险分析MCP。通过漏洞可达性分析、代码指纹比对、深度递归依赖解析等技术,精准判定组件风险,全面覆盖直接与传递依赖,分钟级采集并验证全球开源情报,输出完整的成分风险清单。

4)AI智能研判MCP。依托实战沉淀的高危漏洞规则,结合上下文语义分析,对多引擎扫描结果进行精准研判,覆盖 SQL 注入、反序列化、路径遍历、弱加密等关键风险,输出高可信度的漏洞判定。

5)AI代码深度审计MCP。定向聚焦安全敏感区,过滤无价值代码噪声,基于 Java 高危函数清单与内部安全规范构建规则矩阵,覆盖配置漏洞、高危缺陷及中间件风险,弥补传统审计在规则盲区与上下文分析的不足,输出高精度的漏洞检测结果。

6)AI自动修复与综合报告MCP。依托上下文感知与规范驱动,综合技能一至四的分析与审计结果,实现高效可信的漏洞整改,输出一键可落地的修复方案及完整综合报告。

该框架已在实验中验证,能同时提升审计效率与覆盖率,支持与企业DevSecOps流程深度融合。是AI Coding安全“左移”的最佳实践。

更重要的是,安恒信息还将这一框架集成到统一的交付形态中,打造出了“安全开发一体机”。

可以把它理解为:多智能体框架是底层“发动机”,而安全开发一体机则是把发动机、底盘和驾驶舱都装配齐全的“整车”,企业只需开箱即可使用。

“安全开发一体机”将国产代码仓库、威胁建模、SAST、SCA、CI/CD、制品库等核心安全模块形成“一机打包”的完整安全开发基础设施。它既继承了多智能体框架的智能化优势,又通过产品化集成降低了落地门槛,使企业能够快速实现从研发到上线的全流程安全闭环。在版本设计上,提供基础版与旗舰版两个形态:

基础版:集成国产代码仓库、SAST、SCA 、CI/CD等核心能力,帮助用户快速落地 DevSecOps,实现安全检测与流程管理的一体化。

旗舰版(AI):在基础能力之上,进一步叠加AI威胁建模、 AI 漏洞研判、AI源代码审计、AI修复建议与智能报告生成等模块,利用大模型驱动的自动化能力,实现“生成即安全”的目标,大幅提升漏洞识别精度、修复效率和整体安全成熟度。

通过这种分层架构,用户既可以根据自身安全建设阶段灵活选择合适版本,又能在未来平滑升级到旗舰版,实现安全能力的可持续演进。


04

企业级代码“生成即安全”的可行路径

AI Coding的安全问题并不是一个简单的技术问题,它需要模型厂商、安全团队以及开发者的持续协同。多智能体审计框架为我们指出了一条切实可行的实践路径,企业级代码的“生成即安全”将在越来越多的场景进行落地。

AI编程只有真正成为可靠的生产力,而非极客工具箱里的玩具,才能够给企业带来生产效率的提升、价值的增量。这场变革才刚刚开始,但每一步探索,都在为更安全的AI Coding未来铺路。


05

AI驱动安全防御范式全面升级

除 AI 编程外,其他网络安全领域也正遭遇AI驱动的攻击升维挑战,倒逼防御范式迎来革命性突破。面对 “以 AI 对抗 AI” 的需求,行业亟需更高效的AI安全服务创新范式。

图片

作为国内唯一以数字贸易为主题的国家级展会,第四届全球数字贸易博览会(以下简称“数贸会”)即将于9月25日 - 29日在杭州大会展中心盛大启幕。安恒信息正式成为本届数贸会“数字安全技术服务合作伙伴”,将以自主研发的AI+安全产品,为这场聚焦“数字贸易 商通全球”的国际盛会保驾护航。

安恒信息届时将全球首发集成18年实战沉淀、千名专家经验炼成的“AI安服数字员工”,致力于构建高效智能的新时代数字安全服务体系。这不仅是对谷歌认定的十大AI+应用领域(安全 Agent)的率先落地,更是中国安全治理理念与经验向全球的重要输出。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐