AI程序员「删库跑路」,还撒谎!AI Coding不安全
旗舰版(AI):在基础能力之上,进一步叠加AI威胁建模、 AI 漏洞研判、AI源代码审计、AI修复建议与智能报告生成等模块,利用大模型驱动的自动化能力,实现“生成即安全”的目标,大幅提升漏洞识别精度、修复效率和整体安全成熟度。为此,我们邀请国内领先的AI安全企业----安恒信息做了一次双层次实验,并且搭建了一套完整的“多智能体(MCPs)协同驱动的自动化安全审计体系”,系统性评估AI代码生成工具在
AI 浪潮正席卷软件行业,程序员们在 FOMO 情绪和效率诉求的双重驱动下,越来越多地把 AI 编程工具融入日常工作,“Vibe Coding”逐渐成为一种新的开发常态。
然而,近期 Replit AI 编程平台发生误删生产数据库的事件,为热烈的 AI Coding 氛围蒙上阴影。事件一出,迅速引发业内关于 AI 编程安全性的广泛讨论:AI 生成的代码究竟有多安全?在享受效率红利的同时,如何真正保障 AI Coding 的安全性?
01
真实开发场景下,AI生成代码的安全性研究
为此,我们邀请国内领先的AI安全企业----安恒信息做了一次双层次实验,并且搭建了一套完整的“多智能体(MCPs)协同驱动的自动化安全审计体系”,系统性评估AI代码生成工具在不同条件下的安全表现。
实验框架图 (点击放大)
实验目标主要聚焦两个方向:评估AI生成代码的基础安全性、探索安全设计对代码安全的影响机制。
实验选取国内外主流的10款 AI 代码生成工具,设计涵盖代码片段任务与完整项目的提示词集合,生成真实的代码样本。随后,依托数字员工平台,构建“多引擎审计 → AI 研判降噪 → AI 深度审计 → AI 修复建议 → 报告生成”的全自动化流程,实现对AI生成代码的系统化漏洞评估。
02
你的代码正在“裸奔”:AI默认生成的
代码是不安全的
测评结果显示,AI在默认状态下生成的代码存在严重的安全隐患。如果不加任何限制,代码上线几乎等同于“裸奔”。因此,至少要引入安全提示词和静态安全测试作为最低安全门槛。
1、AI默认生成代码=裸奔!AI写的Bug比你想象的多
在无安全设计的情况下,AI生成代码的平均缺陷密度约为 11.28 个/千行代码,部分模型甚至超过 20 个/千行。高频出现的问题包括:SQL注入、路径遍历、弱加密、硬编码密钥等等。
不同AI编程模型生成代码的漏洞数量(每千行代码) (点击放大)
AI生成代码的漏洞类型分布 (点击放大)
更令人担忧的是,高危漏洞比例占比惊人,这意味着一旦投入生产环境,后果可能极其严重。
AI生成代码的漏洞风险等级分布 (点击放大)
2、增加安全提示词后,缺陷密度下降一半
通过引入安全提示词,缺陷密度从 11.28 个/千行降至约 7.41,再进一步使用增强型提示词,降至 5.67 个/千行。换句话说,安全提示词能让缺陷数量几乎减半,效果非常显著。
加入安全提示后各模型生成代码的漏洞数量变化(每千行代码) (点击放大)
平均缺陷密度变化(每千行代码) (点击放大)
3、真刀真枪测评:10大AI编程工具安全性
先看合规性:漏洞榜单对照
CWE Top 25 和 OWASP Top 10 是国际公认的核心 Web 应用安全风险清单。我们将 AI 生成代码中的漏洞类型与这两大基准对照,如果触发了对应弱点,就视为“不合规”;反之,则合规度越高。
通过统计命中率并转换为排名,可以直观量化不同模型在规避行业标准漏洞方面的表现。表 1、表 2 展示了不同提示词条件下的 CWE / OWASP 合规排名。
表1-不同提示词加入后各模型的CWE合规排名
表2-不同提示词加入后各模型的OWASP合规排名
再看综合评分:谁更稳健
综合评分按“安全30% + 合规20% + 代码质量15% + 安全成熟度15% + OWASP10% + CWE10%”计算。
表3-不同提示词加入后各模型的综合排名
结果很有意思:在 无提示词 或仅用 全局提示词 时,各模型差异不大,几乎都踩了不少坑,导致排名大量并列。
但一旦加入 增强提示词,分化就出现了——并列情况明显减少,有的模型安全性迅速拉开差距。
换句话说:安全提示词,确实能让模型“收敛乱跑”,规避更多风险。从源头降低了高危缺陷发生的概率。
结论
总的来说,在无安全提示词的情况下,各模型的表现差异并不大,都存在较多不合规项;加入全局安全提示词后,达到合规基线的模型占比明显提升且方差收敛。
AI 写代码默认不安全,必须叠加外部安全体系加固,才有可能达到上线标准。
03
AI Coding时代,如何做安全审计?
如何应对以上问题,安恒提出了一套自己的实践思路,经过充分研究以及在多家公司成功实践的基础上,依托数字员工平台,提出“多智能体(MCPs)驱动的自动化安全审计体系”。覆盖了从威胁建模、代码生成、审计研判的全流程。由多个MCP协同完成,从设计到报告输出形成闭环,框架包括六个部分:
1)AI威胁建模MCP。根据需求自动生成安全约束,确保后续开发带有安全上下文。该智能体能够自动推演攻击路径与威胁场景,如:支付绕过、越权访问、敏感数据泄露等,并且生成与业务风险高度耦合的安全控制建议。
2)多引擎融合审计MCP。融合多种源代码审计引擎,实现引擎间优势互补,消除检测盲区,同时支持灵活扩展,输出更全面的审计结果。
3)开源组件风险分析MCP。通过漏洞可达性分析、代码指纹比对、深度递归依赖解析等技术,精准判定组件风险,全面覆盖直接与传递依赖,分钟级采集并验证全球开源情报,输出完整的成分风险清单。
4)AI智能研判MCP。依托实战沉淀的高危漏洞规则,结合上下文语义分析,对多引擎扫描结果进行精准研判,覆盖 SQL 注入、反序列化、路径遍历、弱加密等关键风险,输出高可信度的漏洞判定。
5)AI代码深度审计MCP。定向聚焦安全敏感区,过滤无价值代码噪声,基于 Java 高危函数清单与内部安全规范构建规则矩阵,覆盖配置漏洞、高危缺陷及中间件风险,弥补传统审计在规则盲区与上下文分析的不足,输出高精度的漏洞检测结果。
6)AI自动修复与综合报告MCP。依托上下文感知与规范驱动,综合技能一至四的分析与审计结果,实现高效可信的漏洞整改,输出一键可落地的修复方案及完整综合报告。
该框架已在实验中验证,能同时提升审计效率与覆盖率,支持与企业DevSecOps流程深度融合。是AI Coding安全“左移”的最佳实践。
更重要的是,安恒信息还将这一框架集成到统一的交付形态中,打造出了“安全开发一体机”。
可以把它理解为:多智能体框架是底层“发动机”,而安全开发一体机则是把发动机、底盘和驾驶舱都装配齐全的“整车”,企业只需开箱即可使用。
“安全开发一体机”将国产代码仓库、威胁建模、SAST、SCA、CI/CD、制品库等核心安全模块形成“一机打包”的完整安全开发基础设施。它既继承了多智能体框架的智能化优势,又通过产品化集成降低了落地门槛,使企业能够快速实现从研发到上线的全流程安全闭环。在版本设计上,提供基础版与旗舰版两个形态:
基础版:集成国产代码仓库、SAST、SCA 、CI/CD等核心能力,帮助用户快速落地 DevSecOps,实现安全检测与流程管理的一体化。
旗舰版(AI):在基础能力之上,进一步叠加AI威胁建模、 AI 漏洞研判、AI源代码审计、AI修复建议与智能报告生成等模块,利用大模型驱动的自动化能力,实现“生成即安全”的目标,大幅提升漏洞识别精度、修复效率和整体安全成熟度。
通过这种分层架构,用户既可以根据自身安全建设阶段灵活选择合适版本,又能在未来平滑升级到旗舰版,实现安全能力的可持续演进。
04
企业级代码“生成即安全”的可行路径
AI Coding的安全问题并不是一个简单的技术问题,它需要模型厂商、安全团队以及开发者的持续协同。多智能体审计框架为我们指出了一条切实可行的实践路径,企业级代码的“生成即安全”将在越来越多的场景进行落地。
AI编程只有真正成为可靠的生产力,而非极客工具箱里的玩具,才能够给企业带来生产效率的提升、价值的增量。这场变革才刚刚开始,但每一步探索,都在为更安全的AI Coding未来铺路。
05
AI驱动安全防御范式全面升级
除 AI 编程外,其他网络安全领域也正遭遇AI驱动的攻击升维挑战,倒逼防御范式迎来革命性突破。面对 “以 AI 对抗 AI” 的需求,行业亟需更高效的AI安全服务创新范式。
作为国内唯一以数字贸易为主题的国家级展会,第四届全球数字贸易博览会(以下简称“数贸会”)即将于9月25日 - 29日在杭州大会展中心盛大启幕。安恒信息正式成为本届数贸会“数字安全技术服务合作伙伴”,将以自主研发的AI+安全产品,为这场聚焦“数字贸易 商通全球”的国际盛会保驾护航。
安恒信息届时将全球首发集成18年实战沉淀、千名专家经验炼成的“AI安服数字员工”,致力于构建高效智能的新时代数字安全服务体系。这不仅是对谷歌认定的十大AI+应用领域(安全 Agent)的率先落地,更是中国安全治理理念与经验向全球的重要输出。
更多推荐
所有评论(0)