欧盟重磅新规！GMP人工智能附录 22发布：制药AI监管新时代到来，这些红线绝对不能碰

举个例子：用LLM自动生成 "批次检验报告" 是禁止的 —— 因为LLM可能在数据不全时 "编造" 检验结果（比如把 "未检测重金属" 写成 "重金属合格"）；如果测试数据的标签错了（比如把 "不合格" 药片标成 "合格"），AI测试结果就成了 "无用功"。比如检测药片缺陷的AI，测试数据里既要有常见的 "崩边"，也要有罕见的 "表面微裂纹"；人机协同是否 "走形式"：如果AI只是给操作员提建议（

Tony@???

1470人浏览 · 2025-08-12 11:55:27

Tony@??? · 2025-08-12 11:55:27 发布

2025年7月7日，欧盟委员会和PIC/S同步发布的GMP修订文件中，一个全新附录 ——《附录 22：人工智能》（Annex 22）正式亮相。这是全球首个针对制药行业人工智能（AI）应用的GMP专项指南，标志着AI在药品生产领域的应用从 "自由生长" 进入 "规则约束" 的新阶段。

对于每天和药片、生产线、质量检测打交道的制药人来说，这个附录可能比ChatGPT的更新更值得关注：它明确了哪些AI能用在关键生产环节，哪些绝对禁止；规定了AI模型从训练到退役的全流程要求；甚至连测试数据的标签由谁审核、模型决策要怎么解释都做出了细致规定。

今天我们就用最通俗的语言，结合实际案例拆解这份指南 —— 它不仅是 "合规清单"，更是未来制药行业AI应用的 "生存指南"。

为什么要给制药AI立规矩？

AI在制药GMP环节的渗透早已不是新鲜事 —— 从生产线预测性维护，到药品杂质的机器学习分析，再到文档自动化审核，AI正成为提升效率的重要工具。但随之而来的是监管空白：动态学习的AI是否符合GMP要求？大语言模型能否用于关键质量决策？AI失误会不会影响患者安全？

欧盟《Annex 22》的出台，正是为了给这些问题划下明确答案：AI可以用，但必须守住 “安全底线”—— 毕竟，药品生产的每个决策都连着患者生命健康，AI的一次不可控失误，可能就是患者的一次用药风险。

从行业视角看，这份附录的核心逻辑很清晰：在 “鼓励创新” 和 “保障质量” 之间找平衡。它不否定AI的价值，而是通过规则让AI的应用 “有边界、可信赖”。

这3类AI绝对不能用在关键生产环节

附录 22的第一个核心是划清 "适用范围"—— 不是所有AI都能参与药品生产，尤其是直接影响患者安全的关键环节（比如成品检验、无菌灌装参数控制）。

我们可以用一张 "准入清单" 来理解：

【能用的AI：静态 + 确定性模型】

简单说，这类AI是 "训练完就定型" 的 "老实人"—— 部署后不会自己偷偷 "学习" 新数据，给相同输入就一定输出相同结果。

比如某药企的 "药片外观缺陷检测AI"：

部署前用10万张合格 / 不合格药片图像训练，确定了判断标准；
上线后无论检测多少药片，判断逻辑（比如 "直径偏差超过0.5mm即判定不合格"）都不变；
就算连续检测到1000个合格片，也不会自动放宽标准。

这类模型符合附录 22的核心要求：性能稳定、结果可重复。监管方认为，只有这样才能保证药品质量的一致性 —— 毕竟，没人希望今天合格的药片，明天因为 AI"自己改了主意" 就被判不合格。

【绝对禁止的AI：3类高风险模型】

附录 22用加粗文字明确了 "禁区"，这些模型哪怕效果再好，也不能出现在关键GMP环节（如批次放行、无菌检测）：

1. 动态模型：会 "自我进化" 的AI

动态模型就像 "边工作边考研" 的员工 —— 在生产过程中会自动吸收新数据，悄悄调整决策逻辑。比如某AI系统原本按 "色差0.3" 判不合格，运行一个月后自己改成 "0.5"，这种 "自主调整" 在药品生产中是绝对禁止的。

原因很简单：动态模型的决策逻辑会随数据变化，一旦出问题很难追溯根源。比如某批次药品被判定合格，可能是模型3天前 "学习" 了异常数据导致标准放宽，这对质量控制是致命风险。

2. 概率性输出模型：结果 "薛定谔" 的AI

这类模型给相同输入，可能输出不同结果。比如某AI预测 "某批次原料纯度达标概率92%"，下次输入相同参数，可能变成 "89%"。这种 "不确定性" 在需要绝对严谨的制药领域无法被接受 —— 药品质量要么合格，要么不合格，没有 "大概率合格" 的说法。

3. 生成式AI(如LLM)：会 "创造信息" 的AI

包括ChatGPT、Gemini等大语言模型，以及能生成图像、文本的生成式AI。附录 22明确规定：它们不能用于关键环节。

举个例子：用LLM自动生成 "批次检验报告" 是禁止的 —— 因为LLM可能在数据不全时 "编造" 检验结果（比如把 "未检测重金属" 写成 "重金属合格"）；但如果用于生成 "员工培训PPT初稿"（非关键环节），则需要有资质的人员审核后才能使用（即 "人机协同"）。

【非关键环节：用AI可以，但必须 "有人盯着"】

如果AI用于不直接影响药品质量的环节（比如生产设备能耗预测、非无菌辅料的库存预警），规则会宽松一些。但有个硬性要求：必须有人全程把关（HITL原则）。

比如某药企用生成式AI分析生产日志，提出 "设备维护建议"：

允许AI生成建议，但必须由设备工程师审核；
工程师的培训记录、审核痕迹要全程存档；
一旦发现AI多次给出错误建议，必须暂停使用并调查。

AI想进车间？先过这5关

就算是 "准入清单" 内的静态、确定性模型，也不是 "训练完就能用"。附录 22从 "预期用途" 到 "运行监控" 设置了全流程关卡，每一步都要留下 "合规证据"。

第一关：说清 "你要干什么"—— 预期用途必须 "白纸黑字"

在模型训练前，必须先写清楚 "这个AI要做什么"，而且得由懂工艺的人（比如制药工程师、质量专家）签字确认。

某口服固体制剂企业的 "颗粒流动性预测AI"，其预期用途描述模板可以是这样：

核心任务：根据物料粒径分布、湿度、温度3个参数，预测颗粒在压片前的流动性等级（分 "优 / 中 / 差"）；
输入数据范围：粒径50-200μm、湿度30%-60%、温度15-30℃（涵盖常见和罕见情况）；
局限性：无法预测含结晶水物料的流动性，输入湿度超过60%时可能误判；
责任人：由制剂车间工艺主管（SME）审核，确认描述准确。

为什么要这么细？因为后续所有测试、验证都要围绕 "预期用途" 展开。如果实际用的时候超出范围（比如用它预测含结晶水物料），就算模型表现再好，也属于 "违规操作"。

第二关：测试数据必须 "干净且独立"——3个细节不能错

AI的 "能力" 取决于训练数据，但 "可信度" 取决于测试数据。附录 22对测试数据的要求细到 "连用过的药瓶都不能重复用"。

1. 数据要能代表真实生产

测试数据不能是 "精挑细选" 的理想样本，必须包含生产中可能遇到的各种情况。比如检测药片缺陷的AI，测试数据里既要有常见的 "崩边"，也要有罕见的 "表面微裂纹"；既要有白色药片，也要有深色药片（避免模型只认浅色）。

2. 绝对不能和训练数据 "串门"

测试数据和训练数据必须严格隔离。以下做法值得参考：

项目启动时从数据库中随机划出30%数据作为 "测试集"，加密存放在独立服务器；
训练团队和测试团队签 "数据隔离承诺书"，系统自动记录数据访问痕迹；
测试集的物理样本（如用于拍摄图像的药片）单独封存，贴标签注明 "仅用于测试"。

3. 标签必须 "零错误"

如果测试数据的标签错了（比如把 "不合格" 药片标成 "合格"），AI测试结果就成了 "无用功"。附录 22要求标签必须经过 "双重验证"：可以是2名资深检验员独立审核，也可以用经过验证的实验室设备复核（比如用光谱仪确认药片含量，再给AI图像打标签）。

第三关：性能必须 "比人工强"—— 验收标准有底线

AI想替代人工流程（比如人工目视检验），性能不能 "开倒车"。附录 22明确要求：AI的验收标准至少要等于或高于被替代流程的水平。

某药企用AI替代人工检测胶囊外观的案例很典型：

先统计3个月内人工检测的性能：平均准确率95%，漏检率3%；
给AI设定验收标准：准确率≥96%，漏检率≤2%（必须高于人工）；
针对 "透明胶囊" 这个难检测的子组，单独设定标准：准确率≥94%（允许略低，但需说明理由并由工艺专家签字）。

这里有个关键：企业必须先 "摸清人工流程的底"。如果连人工检测的准确率都没统计过，就没法证明AI更优，自然无法通过验收。

第四关：决策必须 "说得清"—— 可解释性是硬要求

如果AI判定某批次药品 "不合格"，必须能说清 "为什么"。这是附录 22最具前瞻性的要求之一 —— 毕竟，没人敢用 "黑箱决策" 的AI来决定药品质量。

具体怎么做？可以用两种工具：

SHAP值：量化每个特征对决策的影响。比如AI判定药片不合格，SHAP值显示 "表面划痕贡献了70%的决策权重"，这就说明判断逻辑合理；
热图：直观展示AI关注的区域。检测安瓿瓶时，热图重点标注 "瓶口裂纹" 区域，而非无关的瓶身标签，说明AI"关注点正确"。

更重要的是，这些解释必须经过工艺专家审核。如果AI因为 "瓶身标签歪了" 判定安瓿瓶不合格（实际质量标准中标签位置不影响安全），这种 "决策跑偏" 必须整改。

第五关：运行中必须 "被监控"—— 不能 "一部署就不管"

AI上线不是终点。附录 22要求对运行中的AI进行 "全生命周期监控"，避免因环境变化导致性能下降。

需要监控的3个核心点：

输入数据是否 "越界"：如果生产中突然使用新规格的原料（比如粒径比训练数据大50%），系统要自动报警，提示 "输入超出样本空间"；
性能是否 "滑坡"：每周统计AI的准确率、漏检率，一旦连续2周低于验收标准，自动触发 "重新验证" 流程；
人机协同是否 "走形式"：如果AI只是给操作员提建议（比如推荐灭菌温度），要记录操作员是否采纳建议、采纳后的结果，避免 "AI建议被无视" 或 "盲目相信AI"。

对制药企业的3个直接影响

附录 22的落地，将倒逼制药企业调整AI应用策略。无论企业目前是 "刚起步" 还是 "已在用AI"，都需要关注这3点：

1. 跨部门协作成 "刚需"

AI不再是 "IT部门或数据科学家的事"。附录 22要求工艺专家（SME）、质量保证（QA）、IT、数据科学家全程协作：

工艺专家定义 "什么是合格产品"；
数据科学家负责模型训练；
QA审核测试流程；
IT保障数据安全。

2. 文档工作量大幅增加

从 "测试数据选择理由" 到 "模型决策解释报告"，附录 22要求所有环节都必须 "有记录、可追溯"。企业需要建立专门的AI文档管理体系，重点留存这些材料：

模型预期用途描述（含SME签字）；
测试数据清单及标签验证记录；
验收标准及性能对比报告；
运行中的监控日志及偏差处理记录。

3. 动态模型暂时 "退居二线"

对于已经在使用动态模型的企业，需要尽快调整：

关键环节（如批次放行）必须换成静态模型；
非关键环节的动态模型要增加 "人工冻结" 机制（比如每周手动审核模型参数，确认无异常后再允许继续运行）；
记录动态模型的使用范围及风险评估报告，以备监管检查。

未来：AI合规将成 "核心竞争力"

附录 22虽然设置了不少 "条条框框"，但本质是为了让AI在制药行业更安全地落地。从长期看，提前适应规则的企业将获得优势：

对于制药人来说，现在需要做的是：

盘点现有AI应用，对照附录 22排查风险；
组织跨部门培训，让工艺、质量、IT人员都理解规则；
建立AI全生命周期管理流程，从 "被动合规" 转向 "主动管理"。

AI在制药行业的故事才刚刚开始。附录 22不是 "枷锁"，而是让创新走得更稳的 "护栏"。当AI既能提高效率，又能保证药品质量稳定时，最终受益的将是每一个患者 —— 这或许就是这份指南的终极意义。

参考文献：

[1] 《附录 22：人工智能》（Annex 22）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Jenkins 自动化部署：从代码提交到上线一条龙

本文系统介绍Jenkins自动化部署从代码提交到上线的完整流程。文章从CI/CD核心理念入手，解析Jenkins Master-Agent分布式架构与Pipeline as Code的设计思想，详细阐述代码检出、构建编译、自动测试、制品归档、部署验证等流水线各阶段。同时探讨凭据管理、性能优化、高可用架构与质量门禁等生产环境最佳实践，为读者提供构建标准化、自动化、可重复的CI/CD流水线的完整指南，