【LLM SafeTy】大模型安全风险及检测技术研究课题（持续维护更新）

更新记录（

XU Hongduo

931人浏览 · 2025-08-22 10:07:09

XU Hongduo · 2025-08-22 10:07:09 发布

引言

为什么需要检测大模型安全？

大语言模型与传统AI系统的根本差异在于信任边界的重新定义：用户不再与可预测的规则驱动程序交互，而是面对一个能够自主生成内容、执行指令的复杂概率模型。这种"黑箱"特性催生了前所未有的攻击面和安全风险类别，使得安全检测成为必要。

课题研究背景

背景

大模型技术快速迭代的同时，安全风险呈爆发式增长。2024年已披露相关安全漏洞超过40个，大模型安全事件频发，亟需引起高度重视。这些风险既包括数据泄露、隐私侵犯等传统网络安全威胁，也涵盖了提示注入攻击、有害内容生成、模型投毒等大模型特有的新兴安全挑战。

政策法规驱动

国内外监管框架正在完善。我国《生成式人工智能服务管理暂行办法》、《生成式人工智能服务安全基本要求》等法规相继出台，从技术伦理、算法治理、安全评估等维度对大模型安全管理提出明确要求，为行业发展提供合规指引。

政策性文件 timeline

相关政策文件阅览及下载，请见附件一：大模型安全法律法规性文件

OWASP LLM Top 10

OWASP（开放式Web应用程序安全项目）于2024年首次发布 LLM Top 10，为基于大语言模型构建的应用程序提供了系统性的安全风险分类和优先级排序框架，填补了传统Web安全标准在AI时代的空白。

详细内容参见：【LLM SafeTy】OWASP LLM Top 10（2024）

MITRE ATLAS 对抗威胁矩阵

MITRE ATLAS（人工智能系统对抗威胁态势）是基于真实攻击案例和AI红队实战演练构建的全球威胁情报知识库。针对大语言模型安全挑战，该框架近期进行了重要升级：

LLM专项战术扩展： 新增生成式AI专门威胁分类，结合实际攻击案例构建针对性防护策略。
核心攻击技术定义：
- 提示注入攻击： 通过精心构造的恶意提示绕过模型安全机制，操控模型输出非预期内容
- 训练数据投毒： 在训练或微调阶段植入恶意样本，从源头改变模型行为特征
- 越狱攻击： 利用角色扮演、场景构造等手段突破模型使用限制和内容过滤
实战案例补强： 整合ChatGPT插件数据泄露、PoisonGPT模型后门、MathGPT代码执行等真实安全事件，为防护策略提供实证支撑。

研究驱动因素与挑战

合规驱动日益紧迫：《生成式人工智能服务管理暂行办法》等法规密集出台，公安部等监管部门已启动AI大模型专项攻防演练，合规检测需求迫切。
传统检测方法局限性： 大模型的复杂架构和海量参数特性使传统安全检测技术难以适应，亟需结合预训练、微调、Agent应用等全生命周期特点，构建针对性检测方法与测试用例。
检测工具体系化不足： 尽管LangSmith、PyRIT、Garak等工具已经出现，但缺乏对大模型技术栈的系统性覆盖和各环节风险的统一识别框架。

本课题致力于构建大模型安全检测的完整技术体系，持续跟踪AI安全前沿进展，识别和防范大模型全生命周期的新兴威胁，为行业提供体系化的安全检测解决方案。

风险点分析

大模型安全风险具有全生命周期渗透性，从模型训练、部署到应用各阶段均存在安全威胁。风险分布呈现四维立体结构：框架层面的基础设施安全、数据层面的隐私与完整性保护、模型层面的算法安全与鲁棒性、应用层面的交互安全与内容治理。相较于传统AI系统，大模型不仅承继了既有安全挑战，更催生了提示注入、模型投毒、越狱攻击等新兴威胁类型，形成了复合型、动态化的安全风险格局。

请添加图片描述

检测技术与方案

附件

附件一：大模型安全法律法规性文件

《人工智能安全测评白皮书》
- 正式标题：《人工智能安全标准化白皮书（2023版）》
- 发布机构：全国信息安全标准化技术委员会（TC260）
- 下载链接：https://www.tc260.org.cn/upload/2023-05-31/1685501487351066337.pdf
《人工智能算法金融应用评价规范》
- 标准编号：JR/T 0221-2021
- 发布机构：中国人民银行（2021-03-26）
- 下载链接：https://www.guifanku.com/745607.html
《人工智能风险管理框架》
- 标题：NIST AI Risk Management Framework (AI RMF)
- 发布机构：美国国家标准与技术研究院（NIST）
- 版本：AI RMF 1.0，发布于2023年1月26日
- 官方链接：https://www.nist.gov/itl/ai-risk-management-framework
- PDF下载：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf
《生成式人工智能服务管理暂行办法》
- 发布机构：国家互联网信息办公室等七部门
- 施行日期：2023年8月15日
- 官方链接：https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
《生成式人工智能服务安全基本要求》
- 标准编号：TC260-003
- 发布机构：全国网络安全标准化技术委员会（2024年3月1日）
- 下载链接：https://www.tc260.org.cn/upload/2024-03-01/1709282398070082466.pdf
《大语言模型安全测试方法》
- 标准编号：WDTA AI-STR-02
- 发布机构：世界数字技术院（WDTA）
- 发布日期：2024年4月16日在第27届联合国科技大会上发布
- 牵头单位：蚂蚁集团
- 参与机构：OpenAI、科大讯飞、谷歌、微软等全球数十家科技企业和研究机构
- 相关链接：https://www.afdata.org.cn/Standard/74e5bd36-3b38-4ce9-9cde-d588f999dc41
《大模型安全实践（2024）白皮书》
- 发布机构：清华大学
- 发布年份：2024年
- 参考链接：https://www.fxbaogao.com/detail/4391850

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【2025最新】基于SpringBoot+微信小程序的微信任务打卡系统管理系统源码+MyBatis+MySQL

2048 AI社区

AI应用架构师必看！AI系统合规的7个关键技术，从数据到模型全覆盖

1. 定义基础模型# 2. 配置差分隐私优化器l2_norm_clip=1.0, # 梯度剪辑：控制每个微批次的梯度大小（避免噪声被放大）noise_multiplier=1.1, # 噪声乘数：越大隐私保护越强（ε越小）num_microbatches=32, # 微批次数量：将大批次拆分成小批次，计算噪声# 3. 编译模型（使用差分隐私优化器）"""生成FGSM对抗样本"""image.req

2048 AI社区

‌神经网络稀疏化设计构架——网络剪枝技术综述‌

网络剪枝作为模型压缩的核心技术，正从传统规则化方法向自动化、智能化发展。未来需进一步解决硬件兼容性、动态稀疏调控等挑战，以推动AI在资源受限场景的落地。网络剪枝（Network Pruning）是一种通过去除神经网络中冗余或无影响的参数来降低计算与内存开销的技术，同时保持模型性能。‌（PyTorch剪枝片段）