AI大模型安全问题
定义:使用外部LLM接口处理企业或个人数据时,敏感、机密或者受保护的数据因模型提供商的安全漏洞、配置不当、内部人员滥用或恶意攻击等原因,未经过授权而被披露、访问、窃取或传输的问题。应对场景:适用于将LLM集成到产品或服务中的任何场景,尤其是在实时交互和用户生成内容的环境中,需要对LLM的输入与输出进行严格的审核与过滤。应对场景:适用于AI模型的开发与发布流程,在模型投入生产环境前,进行代码级别的安
AI安全问题:
1、数据泄露(滥用)问题
定义:使用外部LLM接口处理企业或个人数据时,敏感、机密或者受保护的数据因模型提供商的安全漏洞、配置不当、内部人员滥用或恶意攻击等原因,未经过授权而被披露、访问、窃取或传输的问题。
案例:①DeepSeek数据库暴露
Wiz Research 发现DeepSeek的ClickHouse数据库允许公开访问,包含内部数据的访问。
②WPS使用用户数据训练AI
用户发现在WPS的“隐私政策”中提及会对用户数据采取脱敏处理之后作为AI训练的基础材料。
③字节跳动内部禁止Cursor等第三方AI编程工具
处于对数据隐私的保护才禁止编程工具使用。
防控:
(1)技术层面
- 数据脱敏与分类:上传前脱敏,绝密数据严禁上传;
- 安全API与模型评估:强加密传输,选择承诺不训练用户数据的LLM;
- DLP与加密:部署数据泄露防护系统,全程加密通信与存储。
(2)管理层面
- 明确使用政策:制定数据上传禁令、审批流程;
- 员工培训:提升数据安全意识,告知风险;
- 供应商管理:尽职调查,合同约束,定期审计;
- 应急预案:制定数据泄露响应计划。
(3)法律与合规层面
- 遵守法律:符合《个保法》、GDPR等数据保护法律;
- 风险评估:定期评估LLM使用风险,确保合规。
2、模型被恶意攻击
(1)模型投毒攻击
攻击者向模型的训练数据中注入恶意的或误导性信息,导致模型学习不正确的模式、引入后门或产生偏差。
通用案例:恶意模型分发、网络安全系统操纵、推荐系统/欺诈检测系统被污染、联邦学习中的模型投毒
真实案例:谷歌图片识别系统偏差、自动驾驶汽车路标误识别、医疗诊断模型投毒
影响:降低模型准确性、引入后门、系统性故障、知识产权受损、声誉损害等。
(2)对抗性攻击
攻击者通过对模型输入进行微小,通常对人类不可察觉的修改,导致模型做出错误的预测。
通用案例:文本分类模型规避、图像识别模型规避(注入噪声)、LLM越狱
真实案例:特斯拉Autopilot规避、人脸识别系统伪装、雪佛兰ChatGPT机器人泄露
影响:安全漏洞、AI系统信任度降低、可能导致物理损害(自动驾驶)或隐私侵犯。
(3)模型提取攻击
攻击者通过反复查询模型(通常是黑盒API),观察其输出,从而窃取模型的架构、超参数、功能或训练数据等知识产权。
通用案例:MlaaS平台模型窃取、通过模型响应判断敏感数据
真实案例:EDA模型提取、商业规模模型复制、隐私保护机器学习模型提取
影响:知识产权盗窃、隐私泄露、模型滥用(生成误导性内容、支持垃圾邮件机器人)。
(4)模型反演攻击
攻击者利用模型的输出,逆向工程推断出模型的原始训练数据或敏感属性。
通用案例:人脸识别模型信息窃取、医疗AI模型隐私泄露
真实案例:纽约时报起诉OpenAI版权案、学生成功预测模型隐私风险、金融贷款审批模型信息泄露
影响:严重侵犯隐私、敏感数据泄露、信任度受损、法律和道德挑战。
3、开源AI安全工具
(1)Promptfoo
提示工程测试、LLM评估、一致性检验
应对场景:适用于需要大规模测试和迭代优化LLM提示的场景,尤其是在开发聊天机器人、内容生成系统或者任何依赖LLM输出的应用程序时。
解决问题:
提示鲁棒性:确保提示在面对不同的输入时依然能够产生预期的输出;
性能回归:防止因提示修改或模型更新导致性能下降;
安全漏洞:识别可能导致不安全、偏见或不当内容的提示注入攻击和数据泄露风险;
质量保证:确保LLM生成内容的质量、准确性和相关性。
(2)LLM Guard
LLM输入/输出过滤、内容审查、实时防护
应对场景:适用于将LLM集成到产品或服务中的任何场景,尤其是在实时交互和用户生成内容的环境中,需要对LLM的输入与输出进行严格的审核与过滤。
解决问题:
提示注入攻击:阻止恶意用户通过特殊构造的输入来控制LLM的行为;
不安全内容生成:过滤和阻止LLM生成有毒、偏见、暴力、色情或非法的内容;
敏感信息泄露:阻止LLM在输出中无意中泄露敏感或机密数据;
数据脱敏:对进出LLM的数据进行脱敏处理,保护用户隐私;
拒绝服务攻击:通过限制输入复杂度和长度来减轻潜在的Dol攻击。
(3)ModelScan
AI模型静态分析、代码安全审计、敏感信息检测
应对场景:适用于AI模型的开发与发布流程,在模型投入生产环境前,进行代码级别的安全和隐私检查,尤其适用于开源模型或第三方模型集成。
解决问题:
恶意代码:发现模型文件中嵌入的恶意代码、后门或危险函数;
敏感数据:检测模型权重或元数据中是否意外包含个人身份信息、商业机密等敏感数据;
依赖漏洞:识别模型所依赖库中的已知安全漏洞;
配置错误:找出不安全的模型配置,例如默认凭证或弱加密设置。
(4)Garak
生成式AI模型安全评估、可靠性框架、风险识别
应对场景:适用于部署前对生成式AI模型进行全面的安全和可靠性评估,尤其是在金融、医疗、法律等高风险领域,以确保模型符合法规和道德标准。
解决问题:
模型偏见:发现并减轻模型中存在的有害偏见;
信息泄露:识别模型是否可能泄露训练数据中的敏感信息;
对抗性攻击:评估模型对恶意输入(提示注入、越狱)的抵抗能力;
幻觉/不准确:评估模型生成虚假或不准确信息的倾向;
合规性:帮助组织满足AI相关的安全和伦理法规要求。
(5)AI Infra Guard Tencent
基础设施安全、AI部署保护、运行时安全
应对场景:适用于大型AI系统和模型的部署与运行环境,特别是在云原生或数据中心环境中,需要确保AI基础设施的弹性、安全性和隐私。
解决问题:
系统漏洞:防御针对AI基础设施的操作系统、容器、网络层面的攻击;
数据完整性:保护AI训练和推理数据的安全性和完整性;
访问控制:实施严格的身份验证和授权机制,防止未经授权的访问;
资源滥用:监测并阻止对AI计算资源的非法使用或滥用;
供应链安全:确保AI模型和依赖项的来源可靠且未被篡改。
(6)PyRIT
生成式AI风险识别、红队测试、自动化攻击模拟
应对场景:适用于对生成式AI系统进行主动地安全评估,特别是通过模拟攻击来发现潜在的漏洞和弱点,为AI系统加固提供依据。
解决问题:
安全弱点:识别并利用生成式AI模型的安全漏洞,例如提示注入、数据提取、权限提升等;
模型越狱:发现模型如何被绕过安全防护,生成有害或不当的内容;
数据中毒:模型恶意数据注入对模型行为的影响;
偏见/公平性:评估模型在不同用户群体是否表现出偏见;
安全基准:建立可重复的测试流程和指标,衡量AI系统的安全态势。
更多推荐

所有评论(0)