AI大模型安全问题

定义：使用外部LLM接口处理企业或个人数据时，敏感、机密或者受保护的数据因模型提供商的安全漏洞、配置不当、内部人员滥用或恶意攻击等原因，未经过授权而被披露、访问、窃取或传输的问题。应对场景：适用于将LLM集成到产品或服务中的任何场景，尤其是在实时交互和用户生成内容的环境中，需要对LLM的输入与输出进行严格的审核与过滤。应对场景：适用于AI模型的开发与发布流程，在模型投入生产环境前，进行代码级别的安

小趴菜一枚°

437人浏览 · 2026-03-05 18:56:22

小趴菜一枚° · 2026-03-05 18:56:22 发布

AI安全问题：

1、数据泄露（滥用）问题

定义：使用外部LLM接口处理企业或个人数据时，敏感、机密或者受保护的数据因模型提供商的安全漏洞、配置不当、内部人员滥用或恶意攻击等原因，未经过授权而被披露、访问、窃取或传输的问题。

案例：①DeepSeek数据库暴露

Wiz Research 发现DeepSeek的ClickHouse数据库允许公开访问，包含内部数据的访问。

②WPS使用用户数据训练AI

用户发现在WPS的“隐私政策”中提及会对用户数据采取脱敏处理之后作为AI训练的基础材料。

③字节跳动内部禁止Cursor等第三方AI编程工具

处于对数据隐私的保护才禁止编程工具使用。

防控：

（1）技术层面

数据脱敏与分类：上传前脱敏，绝密数据严禁上传；
安全API与模型评估：强加密传输，选择承诺不训练用户数据的LLM；
DLP与加密：部署数据泄露防护系统，全程加密通信与存储。

（2）管理层面

明确使用政策：制定数据上传禁令、审批流程；
员工培训：提升数据安全意识，告知风险；
供应商管理：尽职调查，合同约束，定期审计；
应急预案：制定数据泄露响应计划。

（3）法律与合规层面

遵守法律：符合《个保法》、GDPR等数据保护法律；
风险评估：定期评估LLM使用风险，确保合规。

2、模型被恶意攻击

（1）模型投毒攻击

攻击者向模型的训练数据中注入恶意的或误导性信息，导致模型学习不正确的模式、引入后门或产生偏差。

通用案例：恶意模型分发、网络安全系统操纵、推荐系统/欺诈检测系统被污染、联邦学习中的模型投毒

真实案例：谷歌图片识别系统偏差、自动驾驶汽车路标误识别、医疗诊断模型投毒

影响：降低模型准确性、引入后门、系统性故障、知识产权受损、声誉损害等。

（2）对抗性攻击

攻击者通过对模型输入进行微小，通常对人类不可察觉的修改，导致模型做出错误的预测。

通用案例：文本分类模型规避、图像识别模型规避（注入噪声）、LLM越狱

真实案例：特斯拉Autopilot规避、人脸识别系统伪装、雪佛兰ChatGPT机器人泄露

影响：安全漏洞、AI系统信任度降低、可能导致物理损害（自动驾驶）或隐私侵犯。

（3）模型提取攻击

攻击者通过反复查询模型（通常是黑盒API），观察其输出，从而窃取模型的架构、超参数、功能或训练数据等知识产权。

通用案例：MlaaS平台模型窃取、通过模型响应判断敏感数据

真实案例：EDA模型提取、商业规模模型复制、隐私保护机器学习模型提取

影响：知识产权盗窃、隐私泄露、模型滥用（生成误导性内容、支持垃圾邮件机器人）。

（4）模型反演攻击

攻击者利用模型的输出，逆向工程推断出模型的原始训练数据或敏感属性。

通用案例：人脸识别模型信息窃取、医疗AI模型隐私泄露

真实案例：纽约时报起诉OpenAI版权案、学生成功预测模型隐私风险、金融贷款审批模型信息泄露

影响：严重侵犯隐私、敏感数据泄露、信任度受损、法律和道德挑战。

3、开源AI安全工具

（1）Promptfoo

提示工程测试、LLM评估、一致性检验

应对场景：适用于需要大规模测试和迭代优化LLM提示的场景，尤其是在开发聊天机器人、内容生成系统或者任何依赖LLM输出的应用程序时。

解决问题：

提示鲁棒性：确保提示在面对不同的输入时依然能够产生预期的输出；

性能回归：防止因提示修改或模型更新导致性能下降；

安全漏洞：识别可能导致不安全、偏见或不当内容的提示注入攻击和数据泄露风险；

质量保证：确保LLM生成内容的质量、准确性和相关性。

（2）LLM Guard

LLM输入/输出过滤、内容审查、实时防护

应对场景：适用于将LLM集成到产品或服务中的任何场景，尤其是在实时交互和用户生成内容的环境中，需要对LLM的输入与输出进行严格的审核与过滤。

解决问题：

提示注入攻击：阻止恶意用户通过特殊构造的输入来控制LLM的行为；

不安全内容生成：过滤和阻止LLM生成有毒、偏见、暴力、色情或非法的内容；

敏感信息泄露：阻止LLM在输出中无意中泄露敏感或机密数据；

数据脱敏：对进出LLM的数据进行脱敏处理，保护用户隐私；

拒绝服务攻击：通过限制输入复杂度和长度来减轻潜在的Dol攻击。

（3）ModelScan

AI模型静态分析、代码安全审计、敏感信息检测

应对场景：适用于AI模型的开发与发布流程，在模型投入生产环境前，进行代码级别的安全和隐私检查，尤其适用于开源模型或第三方模型集成。

解决问题：

恶意代码：发现模型文件中嵌入的恶意代码、后门或危险函数；

敏感数据：检测模型权重或元数据中是否意外包含个人身份信息、商业机密等敏感数据；

依赖漏洞：识别模型所依赖库中的已知安全漏洞；

配置错误：找出不安全的模型配置，例如默认凭证或弱加密设置。

（4）Garak

生成式AI模型安全评估、可靠性框架、风险识别

应对场景：适用于部署前对生成式AI模型进行全面的安全和可靠性评估，尤其是在金融、医疗、法律等高风险领域，以确保模型符合法规和道德标准。

解决问题：

模型偏见：发现并减轻模型中存在的有害偏见；

信息泄露：识别模型是否可能泄露训练数据中的敏感信息；

对抗性攻击：评估模型对恶意输入（提示注入、越狱）的抵抗能力；

幻觉/不准确：评估模型生成虚假或不准确信息的倾向；

合规性：帮助组织满足AI相关的安全和伦理法规要求。

（5）AI Infra Guard Tencent

基础设施安全、AI部署保护、运行时安全

应对场景：适用于大型AI系统和模型的部署与运行环境，特别是在云原生或数据中心环境中，需要确保AI基础设施的弹性、安全性和隐私。

解决问题：

系统漏洞：防御针对AI基础设施的操作系统、容器、网络层面的攻击；

数据完整性：保护AI训练和推理数据的安全性和完整性；

访问控制：实施严格的身份验证和授权机制，防止未经授权的访问；

资源滥用：监测并阻止对AI计算资源的非法使用或滥用；

供应链安全：确保AI模型和依赖项的来源可靠且未被篡改。

（6）PyRIT

生成式AI风险识别、红队测试、自动化攻击模拟

应对场景：适用于对生成式AI系统进行主动地安全评估，特别是通过模拟攻击来发现潜在的漏洞和弱点，为AI系统加固提供依据。

解决问题：

安全弱点：识别并利用生成式AI模型的安全漏洞，例如提示注入、数据提取、权限提升等；

模型越狱：发现模型如何被绕过安全防护，生成有害或不当的内容；

数据中毒：模型恶意数据注入对模型行为的影响；

偏见/公平性：评估模型在不同用户群体是否表现出偏见；

安全基准：建立可重复的测试流程和指标，衡量AI系统的安全态势。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

精读《Harness design for long-running application development》：真正拉开差距的，不是模型本身，而是你怎么给它harness

2048 AI社区

从零开始构建AI Agent评估体系：12种LangSmith评估方法详解

AI Agent 的评估需要全面考虑其完整的生命周期，从开发阶段到生产部署。评估过程应当涵盖多个关键维度：最终输出的事实准确性和实用价值、推理过程中工具选择的合理性和路径效率、结构化响应生成能力（如 JSON 格式）、多轮对话的上下文维持能力，以及在真实用户流量下的持续性能表现和错误监控能力。为了有效监控和评估 Agent 生命周期的各个组件，LangSmith 作为最具影响力和广泛应用的工具平台

2048 AI社区

LLM开发者必备：掌握21种分块策略让RAG应用性能翻倍

检索增强生成（Retrieval-Augmented Generation, RAG）是当前AI工程师在实际应用中面临的重要技术挑战之一。从理论角度来看，RAG的工作原理相对直观：从自定义数据源中检索相关上下文，然后基于这些上下文让大语言模型生成对应的回答。在实际部署过程中，开发者往往需要处理大量格式混乱的异构数据，并经历反复的系统调优过程，包括分块策略的优化、嵌入模型的选择、检索器的配置、排序器