欧盟重磅新规!GMP人工智能附录 22发布:制药AI监管新时代到来,这些红线绝对不能碰
举个例子:用LLM自动生成 "批次检验报告" 是禁止的 —— 因为LLM可能在数据不全时 "编造" 检验结果(比如把 "未检测重金属" 写成 "重金属合格");如果测试数据的标签错了(比如把 "不合格" 药片标成 "合格"),AI测试结果就成了 "无用功"。比如检测药片缺陷的AI,测试数据里既要有常见的 "崩边",也要有罕见的 "表面微裂纹";人机协同是否 "走形式":如果AI只是给操作员提建议(

2025年7月7日,欧盟委员会和PIC/S同步发布的GMP修订文件中,一个全新附录 ——《附录 22:人工智能》(Annex 22)正式亮相。这是全球首个针对制药行业人工智能(AI)应用的GMP专项指南,标志着AI在药品生产领域的应用从 "自由生长" 进入 "规则约束" 的新阶段。

对于每天和药片、生产线、质量检测打交道的制药人来说,这个附录可能比ChatGPT的更新更值得关注:它明确了哪些AI能用在关键生产环节,哪些绝对禁止;规定了AI模型从训练到退役的全流程要求;甚至连测试数据的标签由谁审核、模型决策要怎么解释都做出了细致规定。
今天我们就用最通俗的语言,结合实际案例拆解这份指南 —— 它不仅是 "合规清单",更是未来制药行业AI应用的 "生存指南"。
01
为什么要给制药AI立规矩?
AI在制药GMP环节的渗透早已不是新鲜事 —— 从生产线预测性维护,到药品杂质的机器学习分析,再到文档自动化审核,AI正成为提升效率的重要工具。但随之而来的是监管空白:动态学习的AI是否符合GMP要求?大语言模型能否用于关键质量决策?AI失误会不会影响患者安全?
欧盟《Annex 22》的出台,正是为了给这些问题划下明确答案:AI可以用,但必须守住 “安全底线”—— 毕竟,药品生产的每个决策都连着患者生命健康,AI的一次不可控失误,可能就是患者的一次用药风险。
从行业视角看,这份附录的核心逻辑很清晰:在 “鼓励创新” 和 “保障质量” 之间找平衡。它不否定AI的价值,而是通过规则让AI的应用 “有边界、可信赖”。
02
这3类AI绝对不能用在关键生产环节
附录 22的第一个核心是划清 "适用范围"—— 不是所有AI都能参与药品生产,尤其是直接影响患者安全的关键环节(比如成品检验、无菌灌装参数控制)。
我们可以用一张 "准入清单" 来理解:
【能用的AI:静态 + 确定性模型】
简单说,这类AI是 "训练完就定型" 的 "老实人"—— 部署后不会自己偷偷 "学习" 新数据,给相同输入就一定输出相同结果。
比如某药企的 "药片外观缺陷检测AI":
-
部署前用10万张合格 / 不合格药片图像训练,确定了判断标准;
-
上线后无论检测多少药片,判断逻辑(比如 "直径偏差超过0.5mm即判定不合格")都不变;
-
就算连续检测到1000个合格片,也不会自动放宽标准。
这类模型符合附录 22的核心要求:性能稳定、结果可重复。监管方认为,只有这样才能保证药品质量的一致性 —— 毕竟,没人希望今天合格的药片,明天因为 AI"自己改了主意" 就被判不合格。
【绝对禁止的AI:3类高风险模型】
附录 22用加粗文字明确了 "禁区",这些模型哪怕效果再好,也不能出现在关键GMP环节(如批次放行、无菌检测):
1. 动态模型:会 "自我进化" 的AI
动态模型就像 "边工作边考研" 的员工 —— 在生产过程中会自动吸收新数据,悄悄调整决策逻辑。比如某AI系统原本按 "色差0.3" 判不合格,运行一个月后自己改成 "0.5",这种 "自主调整" 在药品生产中是绝对禁止的。
原因很简单:动态模型的决策逻辑会随数据变化,一旦出问题很难追溯根源。比如某批次药品被判定合格,可能是模型3天前 "学习" 了异常数据导致标准放宽,这对质量控制是致命风险。
2. 概率性输出模型:结果 "薛定谔" 的AI
这类模型给相同输入,可能输出不同结果。比如某AI预测 "某批次原料纯度达标概率92%",下次输入相同参数,可能变成 "89%"。这种 "不确定性" 在需要绝对严谨的制药领域无法被接受 —— 药品质量要么合格,要么不合格,没有 "大概率合格" 的说法。
3. 生成式AI(如LLM):会 "创造信息" 的AI
包括ChatGPT、Gemini等大语言模型,以及能生成图像、文本的生成式AI。附录 22明确规定:它们不能用于关键环节。
举个例子:用LLM自动生成 "批次检验报告" 是禁止的 —— 因为LLM可能在数据不全时 "编造" 检验结果(比如把 "未检测重金属" 写成 "重金属合格");但如果用于生成 "员工培训PPT初稿"(非关键环节),则需要有资质的人员审核后才能使用(即 "人机协同")。
【非关键环节:用AI可以,但必须 "有人盯着"】
如果AI用于不直接影响药品质量的环节(比如生产设备能耗预测、非无菌辅料的库存预警),规则会宽松一些。但有个硬性要求:必须有人全程把关(HITL原则)。
比如某药企用生成式AI分析生产日志,提出 "设备维护建议":
-
允许AI生成建议,但必须由设备工程师审核;
-
工程师的培训记录、审核痕迹要全程存档;
-
一旦发现AI多次给出错误建议,必须暂停使用并调查。
03
AI想进车间?先过这5关
就算是 "准入清单" 内的静态、确定性模型,也不是 "训练完就能用"。附录 22从 "预期用途" 到 "运行监控" 设置了全流程关卡,每一步都要留下 "合规证据"。
第一关:说清 "你要干什么"—— 预期用途必须 "白纸黑字"
在模型训练前,必须先写清楚 "这个AI要做什么",而且得由懂工艺的人(比如制药工程师、质量专家)签字确认。
某口服固体制剂企业的 "颗粒流动性预测AI",其预期用途描述模板可以是这样:
-
核心任务:根据物料粒径分布、湿度、温度3个参数,预测颗粒在压片前的流动性等级(分 "优 / 中 / 差");
-
输入数据范围:粒径50-200μm、湿度30%-60%、温度15-30℃(涵盖常见和罕见情况);
-
局限性:无法预测含结晶水物料的流动性,输入湿度超过60%时可能误判;
-
责任人:由制剂车间工艺主管(SME)审核,确认描述准确。
为什么要这么细?因为后续所有测试、验证都要围绕 "预期用途" 展开。如果实际用的时候超出范围(比如用它预测含结晶水物料),就算模型表现再好,也属于 "违规操作"。
第二关:测试数据必须 "干净且独立"——3个细节不能错
AI的 "能力" 取决于训练数据,但 "可信度" 取决于测试数据。附录 22对测试数据的要求细到 "连用过的药瓶都不能重复用"。
1. 数据要能代表真实生产
测试数据不能是 "精挑细选" 的理想样本,必须包含生产中可能遇到的各种情况。比如检测药片缺陷的AI,测试数据里既要有常见的 "崩边",也要有罕见的 "表面微裂纹";既要有白色药片,也要有深色药片(避免模型只认浅色)。
2. 绝对不能和训练数据 "串门"
测试数据和训练数据必须严格隔离。以下做法值得参考:
-
项目启动时从数据库中随机划出30%数据作为 "测试集",加密存放在独立服务器;
-
训练团队和测试团队签 "数据隔离承诺书",系统自动记录数据访问痕迹;
-
测试集的物理样本(如用于拍摄图像的药片)单独封存,贴标签注明 "仅用于测试"。
3. 标签必须 "零错误"
如果测试数据的标签错了(比如把 "不合格" 药片标成 "合格"),AI测试结果就成了 "无用功"。附录 22要求标签必须经过 "双重验证":可以是2名资深检验员独立审核,也可以用经过验证的实验室设备复核(比如用光谱仪确认药片含量,再给AI图像打标签)。
第三关:性能必须 "比人工强"—— 验收标准有底线
AI想替代人工流程(比如人工目视检验),性能不能 "开倒车"。附录 22明确要求:AI的验收标准至少要等于或高于被替代流程的水平。
某药企用AI替代人工检测胶囊外观的案例很典型:
-
先统计3个月内人工检测的性能:平均准确率95%,漏检率3%;
-
给AI设定验收标准:准确率≥96%,漏检率≤2%(必须高于人工);
-
针对 "透明胶囊" 这个难检测的子组,单独设定标准:准确率≥94%(允许略低,但需说明理由并由工艺专家签字)。
这里有个关键:企业必须先 "摸清人工流程的底"。如果连人工检测的准确率都没统计过,就没法证明AI更优,自然无法通过验收。
第四关:决策必须 "说得清"—— 可解释性是硬要求
如果AI判定某批次药品 "不合格",必须能说清 "为什么"。这是附录 22最具前瞻性的要求之一 —— 毕竟,没人敢用 "黑箱决策" 的AI来决定药品质量。
具体怎么做?可以用两种工具:
-
SHAP值:量化每个特征对决策的影响。比如AI判定药片不合格,SHAP值显示 "表面划痕贡献了70%的决策权重",这就说明判断逻辑合理;
-
热图:直观展示AI关注的区域。检测安瓿瓶时,热图重点标注 "瓶口裂纹" 区域,而非无关的瓶身标签,说明AI"关注点正确"。
更重要的是,这些解释必须经过工艺专家审核。如果AI因为 "瓶身标签歪了" 判定安瓿瓶不合格(实际质量标准中标签位置不影响安全),这种 "决策跑偏" 必须整改。
第五关:运行中必须 "被监控"—— 不能 "一部署就不管"
AI上线不是终点。附录 22要求对运行中的AI进行 "全生命周期监控",避免因环境变化导致性能下降。
需要监控的3个核心点:
-
输入数据是否 "越界":如果生产中突然使用新规格的原料(比如粒径比训练数据大50%),系统要自动报警,提示 "输入超出样本空间";
-
性能是否 "滑坡":每周统计AI的准确率、漏检率,一旦连续2周低于验收标准,自动触发 "重新验证" 流程;
-
人机协同是否 "走形式":如果AI只是给操作员提建议(比如推荐灭菌温度),要记录操作员是否采纳建议、采纳后的结果,避免 "AI建议被无视" 或 "盲目相信AI"。
04
对制药企业的3个直接影响
附录 22的落地,将倒逼制药企业调整AI应用策略。无论企业目前是 "刚起步" 还是 "已在用AI",都需要关注这3点:
1. 跨部门协作成 "刚需"
AI不再是 "IT部门或数据科学家的事"。附录 22要求工艺专家(SME)、质量保证(QA)、IT、数据科学家全程协作:
-
工艺专家定义 "什么是合格产品";
-
数据科学家负责模型训练;
-
QA审核测试流程;
-
IT保障数据安全。
2. 文档工作量大幅增加
从 "测试数据选择理由" 到 "模型决策解释报告",附录 22要求所有环节都必须 "有记录、可追溯"。企业需要建立专门的AI文档管理体系,重点留存这些材料:
-
模型预期用途描述(含SME签字);
-
测试数据清单及标签验证记录;
-
验收标准及性能对比报告;
-
运行中的监控日志及偏差处理记录。
3. 动态模型暂时 "退居二线"
对于已经在使用动态模型的企业,需要尽快调整:
-
关键环节(如批次放行)必须换成静态模型;
-
非关键环节的动态模型要增加 "人工冻结" 机制(比如每周手动审核模型参数,确认无异常后再允许继续运行);
-
记录动态模型的使用范围及风险评估报告,以备监管检查。
05
未来:AI合规将成 "核心竞争力"
附录 22虽然设置了不少 "条条框框",但本质是为了让AI在制药行业更安全地落地。从长期看,提前适应规则的企业将获得优势:
对于制药人来说,现在需要做的是:
-
盘点现有AI应用,对照附录 22排查风险;
-
组织跨部门培训,让工艺、质量、IT人员都理解规则;
-
建立AI全生命周期管理流程,从 "被动合规" 转向 "主动管理"。
AI在制药行业的故事才刚刚开始。附录 22不是 "枷锁",而是让创新走得更稳的 "护栏"。当AI既能提高效率,又能保证药品质量稳定时,最终受益的将是每一个患者 —— 这或许就是这份指南的终极意义。
参考文献:
[1] 《附录 22:人工智能》(Annex 22)
更多推荐


所有评论(0)