更新记录(Updated Record):

  • 2025.08.18 完成课题背景内容
  • 2025.08.19 补充前言部分
  • 2025.08.20 补充 OWASP 以及 MITRE 内容
  • 2025.08.22 开始撰写风险点分析部分内容
  • 2025.08.25

引言

为什么需要检测大模型安全?

大语言模型与传统AI系统的根本差异在于信任边界的重新定义:用户不再与可预测的规则驱动程序交互,而是面对一个能够自主生成内容、执行指令的复杂概率模型。这种"黑箱"特性催生了前所未有的攻击面和安全风险类别,使得安全检测成为必要。


课题研究背景

背景

大模型技术快速迭代的同时,安全风险呈爆发式增长。2024年已披露相关安全漏洞超过40个,大模型安全事件频发,亟需引起高度重视。这些风险既包括数据泄露、隐私侵犯等传统网络安全威胁,也涵盖了提示注入攻击、有害内容生成、模型投毒等大模型特有的新兴安全挑战。


政策法规驱动

国内外监管框架正在完善。我国《生成式人工智能服务管理暂行办法》、《生成式人工智能服务安全基本要求》等法规相继出台,从技术伦理、算法治理、安全评估等维度对大模型安全管理提出明确要求,为行业发展提供合规指引。

政策性文件 timeline

2021年3月26日
人工智能算法金融应用评价规范
JR/T 0221-2021
中国人民银行
2023年1月26日
人工智能风险管理框架
NIST AI RMF 1.0
美国NIST
2023年5月31日
人工智能安全标准化白皮书
2023版
全国信安标委TC260
2023年7月-8月
生成式人工智能服务管理暂行办法
国家网信办等七部门
2023年8月15日施行
2024年3月1日
生成式人工智能服务安全基本要求
TC260-003标准
全国网安标委
2024年4月16日
大语言模型安全测试方法
WDTA AI-STR-02
世界数字技术院WDTA
2024年下半年
大模型安全实践白皮书
2024版
清华大学

相关政策文件阅览及下载,请见 附件一:大模型安全法律法规性文件


OWASP LLM Top 10

OWASP(开放式Web应用程序安全项目)于2024年首次发布 LLM Top 10,为基于大语言模型构建的应用程序提供了系统性的安全风险分类和优先级排序框架,填补了传统Web安全标准在AI时代的空白。

详细内容参见:【LLM SafeTy】OWASP LLM Top 10(2024)


MITRE ATLAS 对抗威胁矩阵

MITRE ATLAS(人工智能系统对抗威胁态势)是基于真实攻击案例和AI红队实战演练构建的全球威胁情报知识库。针对大语言模型安全挑战,该框架近期进行了重要升级:

  1. LLM专项战术扩展: 新增生成式AI专门威胁分类,结合实际攻击案例构建针对性防护策略。

  2. 核心攻击技术定义:

    • 提示注入攻击: 通过精心构造的恶意提示绕过模型安全机制,操控模型输出非预期内容
    • 训练数据投毒: 在训练或微调阶段植入恶意样本,从源头改变模型行为特征
    • 越狱攻击: 利用角色扮演、场景构造等手段突破模型使用限制和内容过滤
  3. 实战案例补强: 整合ChatGPT插件数据泄露、PoisonGPT模型后门、MathGPT代码执行等真实安全事件,为防护策略提供实证支撑。


研究驱动因素与挑战

  • 合规驱动日益紧迫:《生成式人工智能服务管理暂行办法》等法规密集出台,公安部等监管部门已启动AI大模型专项攻防演练,合规检测需求迫切。
  • 传统检测方法局限性: 大模型的复杂架构和海量参数特性使传统安全检测技术难以适应,亟需结合预训练、微调、Agent应用等全生命周期特点,构建针对性检测方法与测试用例。
  • 检测工具体系化不足: 尽管LangSmith、PyRIT、Garak等工具已经出现,但缺乏对大模型技术栈的系统性覆盖和各环节风险的统一识别框架。

本课题致力于构建大模型安全检测的完整技术体系,持续跟踪AI安全前沿进展,识别和防范大模型全生命周期的新兴威胁,为行业提供体系化的安全检测解决方案。


风险点分析

大模型安全风险具有全生命周期渗透性,从模型训练、部署到应用各阶段均存在安全威胁。风险分布呈现四维立体结构:框架层面的基础设施安全、数据层面的隐私与完整性保护、模型层面的算法安全与鲁棒性、应用层面的交互安全与内容治理。相较于传统AI系统,大模型不仅承继了既有安全挑战,更催生了提示注入、模型投毒、越狱攻击等新兴威胁类型,形成了复合型、动态化的安全风险格局。

请添加图片描述


检测技术与方案


附件

附件一:大模型安全法律法规性文件

  1. 《人工智能安全测评白皮书》
  2. 《人工智能算法金融应用评价规范》
  3. 《人工智能风险管理框架》
  4. 《生成式人工智能服务管理暂行办法》
  5. 《生成式人工智能服务安全基本要求》
  6. 《大语言模型安全测试方法》
    • 标准编号:WDTA AI-STR-02
    • 发布机构:世界数字技术院(WDTA)
    • 发布日期:2024年4月16日在第27届联合国科技大会上发布
    • 牵头单位:蚂蚁集团
    • 参与机构:OpenAI、科大讯飞、谷歌、微软等全球数十家科技企业和研究机构
    • 相关链接https://www.afdata.org.cn/Standard/74e5bd36-3b38-4ce9-9cde-d588f999dc41

  7. 《大模型安全实践(2024)白皮书》

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐