在临床语境中扩展医疗AI
在临床语境中扩展医疗AI
这是一篇发表于 Nature Medicine 的观点文章(Perspective),题目为 《Scaling medical AI across clinical contexts》(在临床语境中扩展医疗AI)。
文章由哈佛医学院、波士顿儿童医院、Broad研究所等机构的研究人员联合发表(通讯作者为 Michelle M. Li 和 Marinka Zitnik)。
以下是对这篇论文的详细解读,涵盖了核心点、提出的新范式、技术路径以及应用场景。
1. 核心观点概览 (Executive Summary)
现状: 目前的医疗AI(如基础模型)在标准化测试(Benchmarks)中表现优异,但在复杂的现实世界中,一旦面临不同的患者群体、专科设置或不断变化的医疗标准,性能就会急剧下降。
问题: 现有的适应方法(如微调 Fine-tuning、提示工程 Prompting)难以扩展,无法应对近乎无限的临床场景组合,且容易产生“语境错误”(Contextual Errors)——即输出看起来很合理,但忽略了患者或环境的关键细节。
解决方案: 作者提出了一种新的范式——“语境切换”(Context Switching)。这指的是模型在推理阶段(Inference time),无需重新训练,就能根据可用的数据、用户角色和临床环境动态调整其推理逻辑和行为。

- 图1:从预训练到医疗 AI 的语境适应。
- a, 在大规模通用领域数据上训练的基础模型(Foundation models)可以执行广泛的任务,但往往难以在专业医疗场景中实现泛化。当应用于需要本地化或领域特定知识的领域时,它们的性能会下降。
- b, 提示工程(Prompting)、从外部数据库检索(Retrieval)和微调(Fine-tuning)可以将通用模型与特定的医疗任务对齐。然而,当出现较大的分布偏移(例如由不同的疾病、人群或护理环境引起)时,性能提升的效果会减弱,且微调效率低下,难以扩展。
- c, 语境切换(Context switching)模型无需重新训练,即可实时调整以适应专科、疾病、用户角色或数据可用性的变化。这种转变通过减少对标注数据的依赖,并服务于多种任务、用户和临床环境,支持了更广泛的临床效用。语境切换模型能够适应无限范围的医学专科、医疗保健角色、疾病和人群。
2. 为什么现有方法(微调与提示)不够用?
文章指出,当前医疗AI的适配主要依赖“预训练 + 微调/提示”的两阶段范式,存在以下局限:
- 微调(Fine-tuning)的局限:
- 难以扩展: 每一个新的医院、人群或任务都需要重新微调,成本高昂。
- 数据稀缺: 对于罕见病、边缘群体或低资源语言,缺乏足够的高质量标注数据。
- 隐私壁垒: 医院之间难以共享患者数据进行联合微调。
- 灾难性遗忘: 针对某项任务微调可能导致模型丧失通用能力。
- 提示工程(Prompting)的局限:
- 依赖用户: 效果取决于医生写Prompt的水平和时间,且在急诊等高压环境下不现实。
- 认知偏差: 模型容易表现出“阿谀奉承”(sycophancy),即顺着用户的错误引导生成内容。
- 知识限制: 仅靠Prompt无法解决模型参数知识过时的问题(如新的诊断标准)。
3. 新范式:语境切换 (Context Switching)
定义: 语境切换不仅仅是获取新知识,而是利用现有信息,在推理时调整模型行为。
愿景: 一个具备语境切换能力的模型应当做到:
- 读片时: 在三级医院利用全套数据,在乡镇诊所利用部分数据也能工作。
- 诊断时: 遇到儿童患者,自动切换为儿科生理学逻辑;遇到成人则切换回成人逻辑。
- 沟通时: 对医生使用专业术语,对患者使用通俗语言。
文章提出了实现语境切换的三大技术支柱:
A. 引导输出以匹配临床语境 (Steering Outputs)
- 生成式模型调整: 利用流匹配(Flow-matching)或扩散模型,根据结构化上下文(如患者画像、环境约束)来“引导”生成内容。
- 推理模型(Reasoning Models): 利用思维链(Chain-of-Thought)技术,让模型学习中间推理步骤。
- 奖励机制设计: 设计能反映临床目标的奖励函数(如减少漏诊、避免过度检查),而不仅仅是文本通顺。
B. 跨数据模态的语境切换 (Across Data Modalities)
- 动态权重: 临床决策往往依赖多模态数据(影像、基因、病历)。当某项数据缺失(如没有基因测序结果)或延迟时,模型不应崩溃,而应自动切换权重,依靠现有的实验室结果或临床笔记进行推理。
- 信息互补: 模型需要学会判断哪种模态在当前语境下最重要(例如:肿瘤分期看病理,心律失常看心电图)。
C. 通过多步分析进行推理 (Multistep Analysis / Agents)
- AI智能体(Agents): 采用模块化设计,将复杂任务分解。
- 动态路由: 根据任务需求,主控Agent将子任务分配给专门的专家Agent(例如:一个Agent负责提取病史,另一个负责分析影像,第三个负责写出院小结)。
- 应用: 这种方法不依赖单一模型通吃,而是通过组合不同的“专家模块”来适应新语境。

- 图2:跨医学专科与疾病、地理区域与人群以及医疗角色的语境切换。
- a, 面向医学专科与疾病的语境切换模型可以是一种多模态生成模型(multimodal generative model),它能识别并整合最相关的数据模态(例如组织病理图像、计算机断层扫描 (CT) 和全基因组测序)以及临床专科信息(例如神经科和呼吸科),从而指导诊断与治疗。
- b, 适应特定地理区域和人群需求可能需要一种具备多步推理能力的生成式推理模型(generative reasoning model),它既能捕捉宏观层面的推理(例如共同的疾病风险因素),也能捕捉细微的差异(例如针对特定亚群的调节因子)。

- 图2c:一种生成式多智能体系统(generative multi-agent system),其中每个智能体(Agent)代表一种独特的医疗角色(例如护士、全科医生或专科医生),该系统能够针对特定病例灵活调用合适的专家,让患者全程参与决策过程,并通过实时访问患者的电子健康记录 (EHR) 持续更新输出结果。
4. 临床应用场景 (Clinical Vignettes)
文章通过三个具体案例展示了语境切换的必要性:
场景一:跨专科与疾病 (Specialties & Diseases)
- 问题: 医疗系统高度专业化(分科),导致共病患者或多系统罕见病患者在不同科室间“流浪”,容易漏诊或药物冲突。
- 解决: 语境切换模型可以整合跨专科知识。例如,一个患者同时看神经科和呼吸科,模型能综合两边的发现,提出一个统一的病理生理学解释,避免“盲人摸象”。
场景二:地理与人群差异 (Geography & Population)
- 问题: 同样的疾病(如结核病),在不同地区(高流行区 vs 低流行区)的筛查标准和治疗指南完全不同。盲目套用通用模型会导致错误的风险评分。
- 解决: 模型应将“地理位置”和“资源可用性”作为语境输入。例如,在资源匮乏地区,模型可能会推荐更容易获得的药物,而不是昂贵的一线疗法;或者根据当地流行病学数据调整先验概率。
场景三:医疗角色与准入 (Healthcare Roles & Democratization)
- 问题: 弱势群体(如无法请假的工人)可能无法遵医嘱去专科就诊。僵化的模型只会机械建议“预约专家”,导致患者流失。
- 解决: 语境感知的模型会识别患者的社会经济障碍(SDOH),转而推荐“个性化聊天机器人监测症状 + 远程医疗”的替代方案,既符合医疗标准,又适应了患者的生活现实。
5. 挑战与机遇 (Box 2 & Conclusion)
文章列举了当前面临的五大挑战,这也是未来的研究方向:
- 查询中的语境不足 (Insufficient context): 用户问得太简单,模型需要学会反问以补充信息。
- 静态语境编码 (Static context encoding): 现有的RAG(检索增强生成)往往把知识切得太碎,丢失了全貌。
- 灾难性遗忘 (Catastrophic forgetting): 如何在学习新语境时不忘旧知识。
- 奖励黑客 (Reward hacking): 防止模型为了得分高而给出不符合伦理的建议。
- 误差累积 (Compounding error): 在多步推理中,一步错步步错,模型需要具备自我纠错能力。
总结
这篇论文的核心贡献在于它重新定义了医疗AI的Scaling路径。作者认为,我们不应该试图训练一个包含所有医学知识的“全知全能”静态模型,也不应该为每家医院训练一万个“专用小模型”。相反,未来的方向是构建适应性系统(Context Switching AI)。这种系统像经验丰富的临床医生一样,能够在面对不同的患者、不同的医疗资源和不同的诊断任务时,灵活调整其推理策略、数据关注点和沟通方式。这是医疗AI从“实验室跑分”走向“真实世界大规模部署”的关键一步。
更多推荐


所有评论(0)