AI安全问题:

1、数据泄露(滥用)问题

定义:使用外部LLM接口处理企业或个人数据时,敏感、机密或者受保护的数据因模型提供商的安全漏洞、配置不当、内部人员滥用或恶意攻击等原因,未经过授权而被披露、访问、窃取或传输的问题。

案例:①DeepSeek数据库暴露

Wiz Research 发现DeepSeek的ClickHouse数据库允许公开访问,包含内部数据的访问。

②WPS使用用户数据训练AI

用户发现在WPS的“隐私政策”中提及会对用户数据采取脱敏处理之后作为AI训练的基础材料。

③字节跳动内部禁止Cursor等第三方AI编程工具

处于对数据隐私的保护才禁止编程工具使用。

防控:

(1)技术层面

  • 数据脱敏与分类:上传前脱敏,绝密数据严禁上传;
  • 安全API与模型评估:强加密传输,选择承诺不训练用户数据的LLM;
  • DLP与加密:部署数据泄露防护系统,全程加密通信与存储。

(2)管理层面

  • 明确使用政策:制定数据上传禁令、审批流程;
  • 员工培训:提升数据安全意识,告知风险;
  • 供应商管理:尽职调查,合同约束,定期审计;
  • 应急预案:制定数据泄露响应计划。

(3)法律与合规层面

  • 遵守法律:符合《个保法》、GDPR等数据保护法律;
  • 风险评估:定期评估LLM使用风险,确保合规。

2、模型被恶意攻击

(1)模型投毒攻击

攻击者向模型的训练数据中注入恶意的或误导性信息,导致模型学习不正确的模式、引入后门或产生偏差。

通用案例:恶意模型分发、网络安全系统操纵、推荐系统/欺诈检测系统被污染、联邦学习中的模型投毒

真实案例:谷歌图片识别系统偏差、自动驾驶汽车路标误识别、医疗诊断模型投毒

影响:降低模型准确性、引入后门、系统性故障、知识产权受损、声誉损害等。

(2)对抗性攻击

攻击者通过对模型输入进行微小,通常对人类不可察觉的修改,导致模型做出错误的预测。

通用案例:文本分类模型规避、图像识别模型规避(注入噪声)、LLM越狱

真实案例:特斯拉Autopilot规避、人脸识别系统伪装、雪佛兰ChatGPT机器人泄露

影响:安全漏洞、AI系统信任度降低、可能导致物理损害(自动驾驶)或隐私侵犯。

(3)模型提取攻击

攻击者通过反复查询模型(通常是黑盒API),观察其输出,从而窃取模型的架构、超参数、功能或训练数据等知识产权。

通用案例:MlaaS平台模型窃取、通过模型响应判断敏感数据

真实案例:EDA模型提取、商业规模模型复制、隐私保护机器学习模型提取

影响:知识产权盗窃、隐私泄露、模型滥用(生成误导性内容、支持垃圾邮件机器人)。

(4)模型反演攻击

攻击者利用模型的输出,逆向工程推断出模型的原始训练数据或敏感属性。

通用案例:人脸识别模型信息窃取、医疗AI模型隐私泄露

真实案例:纽约时报起诉OpenAI版权案、学生成功预测模型隐私风险、金融贷款审批模型信息泄露

影响:严重侵犯隐私、敏感数据泄露、信任度受损、法律和道德挑战。

3、开源AI安全工具

(1)Promptfoo

提示工程测试、LLM评估、一致性检验

应对场景:适用于需要大规模测试和迭代优化LLM提示的场景,尤其是在开发聊天机器人、内容生成系统或者任何依赖LLM输出的应用程序时。

解决问题:

提示鲁棒性:确保提示在面对不同的输入时依然能够产生预期的输出;

性能回归:防止因提示修改或模型更新导致性能下降;

安全漏洞:识别可能导致不安全、偏见或不当内容的提示注入攻击和数据泄露风险;

质量保证:确保LLM生成内容的质量、准确性和相关性。

(2)LLM Guard

LLM输入/输出过滤、内容审查、实时防护

应对场景:适用于将LLM集成到产品或服务中的任何场景,尤其是在实时交互和用户生成内容的环境中,需要对LLM的输入与输出进行严格的审核与过滤。

解决问题:

提示注入攻击:阻止恶意用户通过特殊构造的输入来控制LLM的行为;

不安全内容生成:过滤和阻止LLM生成有毒、偏见、暴力、色情或非法的内容;

敏感信息泄露:阻止LLM在输出中无意中泄露敏感或机密数据;

数据脱敏:对进出LLM的数据进行脱敏处理,保护用户隐私;

拒绝服务攻击:通过限制输入复杂度和长度来减轻潜在的Dol攻击。

(3)ModelScan

AI模型静态分析、代码安全审计、敏感信息检测

应对场景:适用于AI模型的开发与发布流程,在模型投入生产环境前,进行代码级别的安全和隐私检查,尤其适用于开源模型或第三方模型集成。

解决问题:

恶意代码:发现模型文件中嵌入的恶意代码、后门或危险函数;

敏感数据:检测模型权重或元数据中是否意外包含个人身份信息、商业机密等敏感数据;

依赖漏洞:识别模型所依赖库中的已知安全漏洞;

配置错误:找出不安全的模型配置,例如默认凭证或弱加密设置。

(4)Garak

生成式AI模型安全评估、可靠性框架、风险识别

应对场景:适用于部署前对生成式AI模型进行全面的安全和可靠性评估,尤其是在金融、医疗、法律等高风险领域,以确保模型符合法规和道德标准。

解决问题:

模型偏见:发现并减轻模型中存在的有害偏见;

信息泄露:识别模型是否可能泄露训练数据中的敏感信息;

对抗性攻击:评估模型对恶意输入(提示注入、越狱)的抵抗能力;

幻觉/不准确:评估模型生成虚假或不准确信息的倾向;

合规性:帮助组织满足AI相关的安全和伦理法规要求。

(5)AI Infra Guard Tencent

基础设施安全、AI部署保护、运行时安全

应对场景:适用于大型AI系统和模型的部署与运行环境,特别是在云原生或数据中心环境中,需要确保AI基础设施的弹性、安全性和隐私。

解决问题:

系统漏洞:防御针对AI基础设施的操作系统、容器、网络层面的攻击;

数据完整性:保护AI训练和推理数据的安全性和完整性;

访问控制:实施严格的身份验证和授权机制,防止未经授权的访问;

资源滥用:监测并阻止对AI计算资源的非法使用或滥用;

供应链安全:确保AI模型和依赖项的来源可靠且未被篡改。

(6)PyRIT

生成式AI风险识别、红队测试、自动化攻击模拟

应对场景:适用于对生成式AI系统进行主动地安全评估,特别是通过模拟攻击来发现潜在的漏洞和弱点,为AI系统加固提供依据。

解决问题:

安全弱点:识别并利用生成式AI模型的安全漏洞,例如提示注入、数据提取、权限提升等;

模型越狱:发现模型如何被绕过安全防护,生成有害或不当的内容;

数据中毒:模型恶意数据注入对模型行为的影响;

偏见/公平性:评估模型在不同用户群体是否表现出偏见;

安全基准:建立可重复的测试流程和指标,衡量AI系统的安全态势。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐