欧盟发布人工智能系统风险指南（附指南中译版）

欧盟EDPS发布的《人工智能系统风险管理指南》构建了覆盖AI全生命周期的治理框架，强调技术合规与人权保护并重。指南将AI系统划分为9个开发阶段，要求每个阶段实施风险控制，重点关注公平性、准确性、数据最小化和安全性四大数据保护原则。

shui

148人浏览 · 2025-11-29 21:54:14

shui · 2025-11-29 21:54:14 发布

本文基于欧盟EDPS于2025年11月11日发布的《人工智能系统风险管理指南》进行系统性梳理和解读。本文重点聚焦两大核心内容：

人工智能系统的完整生命周期
（从开发到退役）；
与主要数据保护原则相关的典型风险及应对措施。

该框架不仅体现了欧盟对AI治理的技术严谨性，也反映了其以“人权为中心”的监管哲学，对于我国构建负责任的人工智能治理体系具有重要参考价值。

一、人工智能系统的生命周期：从概念到退役

根据ISO/IEC标准并结合《人工智能法》（AI Act）定义，欧盟将人工智能系统的生命周期划分为多个关键阶段。每个阶段都可能引入不同的技术与合规风险，因此必须实施持续的风险识别与控制。

1. AI系统的定义

按照《人工智能法》第3条，AI系统是指：“一种基于机器的系统，在不同程度的自主性下运行，能够根据输入推断出预测、内容、建议或决策，并影响物理或虚拟环境。”
注意区分：“AI模型”是数学结构（如神经网络），而“AI系统”包含模型+软件接口+部署环境等整体架构。

2. AI系统开发生命周期（共9个阶段）

阶段	名称	主要活动	关键关注点
1	初始化 / 分析	明确业务问题、设定目标、选择模型架构	是否符合组织使命？是否最小化数据需求？
2	数据采集与准备	收集训练数据（尤其是个人数据）、清洗、标注、格式化	数据质量、合法性来源、偏见潜在性
3	开发	训练模型、调参、测试功能正确性	算法透明度、可解释性设计、过拟合风险
4	验证与确认	测试性能指标（准确率、鲁棒性）、检查是否满足初始要求	“我们是否正确地构建了产品？”（验证）“我们是否构建了正确的产品？”（确认）
5	部署	将AI系统投入生产环境（服务器、终端设备等）	安全配置、权限控制、日志记录
6	操作与监控	实时运行、用户交互、性能跟踪、反馈收集	性能下降预警、异常行为检测
7	持续验证	若采用持续学习机制，则定期用新数据重新评估模型表现	防止模型退化、适应数据漂移
8	重新评估	基于实际运行结果分析系统有效性，识别未预见风险	是否需要更新模型？是否触发再审计？
9	退役	当系统不再适用时，安全删除模型、数据及相关组件	数据彻底清除、防止残留泄露

📌 特别说明：采购AI系统的情形
许多欧盟机构并非自行开发AI系统，而是通过采购方式获取商业解决方案。此时，生命周期中的部分阶段（如开发、验证）由外部供应商完成，但采购方仍负有最终责任。

采购流程应包括：

在招标文件中明确技术与合规要求；
要求供应商提供详细的文档（如数据来源、模型类型、偏差分析）；
对交付系统进行独立验证；
确保合同中包含持续支持与审计条款。

二、AI模型贯穿始终的核心前提：可解释性与可说明性

尽管不属于传统数据保护原则，但可解释性（Explainability）与可说明性（Interpretability） 被视为实现上述所有原则的先决条件。

概念	定义	应用对象	目标
可解释性	人类理解模型内部工作机制的能力	面向开发者、审计人员	判断模型是否合理、是否存在隐藏偏差
可说明性	向终端用户提供易于理解的决策理由	面向用户、监管者	增强信任、满足透明度义务

（一）可解释性是指人类理解给定“黑箱”模型或决策的程度。它相当于理解AI模型如何做出决策的能力。一个可解释的模型运作是透明的，揭示了其输入和输出之间的联系。当算法是可解释的，人类可以清晰、明白地解释其工作原理。这使得可解释性对于确保用户能够理解和信任AI模型至关重要。

例如，一个使用线性回归22来估计房产价格的AI模型，其公式为“价格 = 100,000
+ （50 × 面积_平方米数） + （10,000 × 房间数） + （30,000 × 邮政编码得分
）”，这个模型具有很高的可解释性，因为我们能够清晰地理解其中的计算过程。

AI的可解释性集中于为特定的模型预测或决策提供清晰和连贯的解释。它是指以一种对终端用户可访问的方式阐明AI模型如何做出决策的能力。一个可解释的模型为其输出提供清晰和直观的解释，帮助用户理解特定结果背后的原因。

（二）不可解释或无法解释的AI系统存在风险（技术风险或涉密风险），其存在于以下生命周期：

❗ 风险：不可解释或无法解释的AI系统 黑箱式AI系统可能导致问责缺失、信任崩溃和法律违规。因此，应在以下阶段强制引入可解释机制：

采购时要求供应商提供解释方案；
验证阶段测试解释的有效性；
运行期间持续生成解释日志用于审计。

🛠 应对该风险的措施以及常用技术工具包括：

1. 文档记录：应编写适当的文档记录，包括：

a. 使用了什么类型的AI架构（决策树、神经网络等）及其特点（使用的AI算法类型的详细信息），以及为什么选择这种模型和算法的解释。

b. 训练个人数据的来源详情以及为什么它适用于当前的活动。内容由AI生成

c. 关于 AI 系统如何运作以及其在数据中可识别的不同群体中的准确性信息。

d. 描述潜在的偏见，解释差异和为提高总体质量并降低偏见可能性而采取的措施。

e. 描述系统的局限性，阐明系统能做什么和不能做什么的预期。

这些文件是解释AI系统做了什么以及它是如何完成这些工作的起点；控制者可以阅读这些文件，了解AI系统的运作情况，并能够看到AI系统在处理他们的个人数据时是否公平。这些文件应该对用户相关、有用且易于理解。

2. 考虑可解释性技术，如LIME或SHAP（Shapley加法解释）。
3. 统计分析：26 统计分析AI的输出，并解释结果或缺乏结果的原因。

三、与主要数据保护原则相关的风险分析

依据《欧盟数据保护条例》（EUDPR），所有处理个人数据的行为必须遵守若干基本原则。在AI系统中，这些原则面临前所未有的挑战。以下是与四大核心原则相关的典型风险及其缓解策略：

1. 公平原则（Fairness）

🔹 法律基础：

EUDPR第4(1)(a)条要求处理应“公平”；EDPB已明确表示，公平是一项总体原则，要求个人数据不应以不合理的有害方式、非法方式进行处理。
公平意味着不得以不合理、歧视性或有害的方式处理个人数据。
在本指引中，公平原则被理解为要求数据控制者识别、衡量和减轻这些偏见。

⚠️ 主要风险：

风险编号	描述	成因示例
5.1.1	因训练数据质量差导致偏差	使用不完整、错误或代表性不足的数据集
5.1.2	训练数据本身存在社会偏见	如历史招聘数据中性别比例失衡
5.1.3	过度拟合（Overfitting）	模型过于依赖特定样本，泛化能力差
5.1.4	算法偏见（Algorithmic Bias）	模型在不同群体间表现差异显著（如肤色误识）
5.1.5	解释偏差（Explanation Bias）	向用户提供的解释误导或片面

✅ 缓解措施（摘录）：

定义和实施一个评估训练个人数据集的程序，该程序根据政策对数据集进行采样，并测量和评估其是否符合商定的质量阈值。
定期进行AI系统训练个人数据的质量审计，以检查数据质量。
采用统计技术来检测异常值，这些异常值需要进行检查，以确定它们是否有效（并且应该保留在训练个人数据中）或是否错误（然后应该删除）。
无偏特征：选择不太可能引入偏见的特征。避免直接编码敏感属性（如种族、性别或社会经济地位）的特征。
特征工程：AI模型中选择的特征可以显著影响AI模型的行为。如果某些特征是基于有偏见的假设选择的，则生成的AI模型预测将反映这些偏见。此过程需要仔细考虑，以确保所使用的特征是相关的，并且不会无意中引入偏见。此外，特征可以以减少偏见的方式进行转换。例如，重新加权或重新缩放特征可以帮助确保没有单一特征不成比例。
偏见审计：定期审计AI系统的训练个人数据以检查偏见。

2. 准确性原则（Accuracy）

🔹 法律基础：

与数据保护原则中的准确性含义相反，在人工智能背景下，准确性是一个性能指标，用于衡量人工智能系统猜测正确答案的次数除以预测的总次数。根据欧盟数据保护条例第4条(1)(d)款，个人数据必须准确无误，并在必要时保持最新。

风险编号	描述	示例
5.2.3	输出个人数据不准确	AI自动填写居民住址出错
5.2.4	数据漂移（Data Drift）导致性能下降	输入数据分布随时间变化，模型失效
5.2.5	信息不透明，无法追溯错误来源	用户不知道谁负责AI决策

✅ 缓解措施：

高质量的训练个人数据：高质量的训练个人数据是开发准确可靠的AI模型的基础。由于AI系统从训练数据中学习，确保数据准备充分且干净可以显著提高模型的统计准确性。
多样性和代表性数据：必须从不同来源收集数据，并确保数据代表了AI系统在实际应用中可能遇到的所有情况。例如，如果你正在开发一个机场面部识别AI系统，AI系统应该在具有代表性的图像（光照条件、面部表情）上进行训练，而不仅仅是训练在高分辨率、照明良好的正面图像上。
平衡的数据集：一个平衡的数据集确保了分类问题中的每个类别或类被等量代表。例如，在一个医疗诊断模型中，应该有足够数量的正例和负例，以防止模型对一个结果产生偏见。
超参数优化（HPO）：HPO 涉及寻找最佳的超参数集合，以提高模型在未见过的数据上的性能。超参数是机器学习模型中的配置设置，在训练之前设置，并控制学习过程的各个方面，例如模型的复杂度、学习率等。
人工监督（人类与人工智能协作（HAIC）以及人工在循环（HITL））：将人工审核纳入人工智能决策过程，确保模型的预测得到双重检查，减少错误发生的可能性。
验证所涉及的问题是否可以通过有效和高效地使用非机器学习或深度学习的算法，或者将它们与包括神经符号AI在内的其他方法相结合来解决。

3. 数据最小化原则（Data Minimisation）

🔹 法律基础：

欧盟数据保护指令还必须确保符合数据最小化原则。第4条(1)(c)款指出，个人数据应是“与处理目的相适应的、相关的，并且限于达到处理目的所必需的(数据最小化)”。因此，需要取得平衡，既要为AI系统提供足够的个人数据以准确运行，同时又要将个人数据的数量限制在达到数据控制者所追求的目的所需的范围内。

⚠️ 主要风险：

风险编号	描述	问题本质
5.3.1	无差别收集和存储个人数据	为提升模型性能而过度采集无关信息

✅ 缓解措施：

使用现有主题信息进行预评估，确定哪些类型的个人训练数据可能有助于做出所需推断。在全面训练和运行之前验证计划中个人训练数据类型的相关性。
数据采样：抽取训练个人数据的代表性子集，而不是使用完整的数据集。这种方法被称为数据采样，涉及选择一个更小、平衡得很好的数据部分，这部分数据准确反映了整个数据集的多样性和关键特征。通过精心设计样本，使其包含所有相关类别并避免过度代表或偏见，组织可以有效地训练AI模型，将他们处理的数据量减少到最低。
匿名化/假名化：AI系统应尽可能使用匿名化数据进行开发。如果需要使用个人数据，应考虑使用假名化数据。

4. 安全原则（Security）

🔹 法律基础：

确保个人数据安全的义务在欧盟数据保护条例第4条(1)(f)款中得到确立：“个人数据应当以一种确保个人数据适当安全的方式进行处理，包括防止未经授权或非法的处理以及防止意外丢失、销毁或损坏，使用适当的技术或组织措施（完整性和保密性）”。
结合AI组件的IT系统必须考虑一般IT系统（如钓鱼攻击、恶意软件攻击）相关的安全威胁，但也必须考虑这些AI组件特定的安全威胁。

⚠️ 主要风险：

风险编号	描述	潜在后果
5.4.1	AI系统输出泄露训练数据	如语言模型“记忆”并复述敏感个人信息
5.4.2	存储不当造成数据泄露	数据库未加密、访问日志缺失
5.4.3	API接口暴露敏感信息	第三方调用接口时获取非授权数据

✅ 缓解措施：

实施差分隐私（Differential Privacy）防止模型记忆个体数据；
训练个人数据最小化：只收集和使用必要个人数据。数据扰动技术：可以使用多种技术来修改训练个人数据，以使重新识别变得更加困难，同时保持训练个人数据对于AI系统的目的来说足够准确。
合成数据生成：AI系统至少部分可以通过人工生成的训练个人数据进行训练。这些合成数据反映了真实世界数据的统计属性，但无法归因于单个个体。
在生成输出时，采取措施防止训练个人数据的精确复制，例如使用MEMFREE解码。
多因素认证（MFA）：对敏感AI系统的访问实施多因素认证，以防止未经授权的用户操纵或窃取模型。
通信加密：使用HTTPS（TLS）对客户端和API之间传输的数据进行加密，确保数据在传输过程中受到保护，防止被拦截和窃听。
日志记录和监控：实现API调用的日志记录和监控。
安全审计：定期进行安全审计和API渗透测试，以识别和解决漏洞。这些审计应包括代码审查、配置检查和漏洞扫描，并应使用自动化工具持续扫描常见漏洞。
打补丁：保持API软件和底层基础设施与最新的安全补丁和更新保持同步。

5. 数据主体权利保障

🔹 法律基础：

EUDPR赋予数据主体一系列权利，包括知情权、访问权、更正权、删除权、反对自动化决策权等。

⚠️ 主要风险：

风险编号	描述
5.5.1	无法识别AI系统中的个人数据处理环节
5.5.2	无法有效执行整改或删除请求

✅ 缓解措施：

建立完整的数据血缘图谱（Data Lineage），追踪数据流向；
设计“可遗忘机制”（Right to be Forgotten Mechanism），支持模型局部更新或再训练；
在用户界面中嵌入便捷的权利申请通道；
明确告知用户其有权拒绝完全基于AI的决策。

🔚 总结一句话：

欧盟的人工智能管理不是简单的“审批制”，而是一套贯穿“事前—事中—事后”的动态治理体系，其核心在于让技术运行在法治轨道上，让人始终掌控算法，而非被算法支配。

四、结语：欧盟AI治理体系的核心逻辑

通过对生命周期的精细化管理和对数据保护原则的逐项落实，欧盟构建了一个以风险为导向、以责任为核心、以透明为基础的人工智能治理体系。其特点可概括为：

✅ 全过程覆盖：从规划到退役，每个阶段都有对应的风险控制点；
✅ 主体责任明确：即使采购第三方系统，控制者仍需承担最终合规责任；
✅ 技术与法律协同：不仅提出法律要求，还推荐具体技术缓解手段；
✅ 以人为本导向：强调公平、透明、可解释，保护弱势群体免受算法伤害。

📌 附录：关键术语对照表

英文术语	中文翻译	说明
AI System	人工智能系统	包括模型+软件+部署环境的整体
Data Protection by Design	隐私设计	在系统设计之初就融入数据保护要求
Explainability	可解释性	理解模型“如何工作”
Interpretability	可说明性	解释模型“为何做出某决策”
Black-box AI	黑箱AI	内部机制不可见的复杂模型
Data Drift	数据漂移	输入数据分布随时间发生变化
Differential Privacy	差分隐私	数学上防止个体信息被推断的技术

参考资料：EDPS《关于欧盟机构使用人工智能系统的指南》（2025年修订版）、《人工智能法》（AI Act, EU 2024/1689）、ISO 31000:2018风险管理标准

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

DAY 21 推断聚类后簇的类型

零基础先掌握「先选特征」思路，因为它依赖业务经验，步骤简单，解读直接。两种思路的核心都是「通过簇内特征的统计值（均值）结合业务逻辑解读」，区别只是 “选特征的时机”。代码可以直接复制运行，遇到报错先看 “常见错误 & 解决方案”，再不行就检查库是否安装（Mac OS 终端运行pip list查看）。通过可视化图形借助 ai 定义簇的含义下面通过4 类核心可视化图形（PCA 降维散点图、簇特征热力图