视觉文本预训练模型用于呼吸道疾病检测
清华大学等团队在《Nature Biomedical Engineering》发表研究,提出全球首个呼吸系统疾病视觉-语言预训练模型MedMPT。该模型通过自监督多模态学习,整合CT影像、放射报告和临床数据,实现了诊断、报告生成和处方推荐的一体化。评估显示,MedMPT在肺癌筛查(AUROC 0.9269)、COVID-19诊断(准确率0.8892)等任务中显著优于现有模型,报告生成质量(BLEU
星标“医工学人”,第一时间获取医工交叉领域新闻动态~

呼吸系统疾病涵盖慢性阻塞性肺病、下呼吸道感染及肺癌等多种病理类型,是全球范围内导致死亡的主要原因之一。其诊断与管理往往依赖影像、实验室检测及临床评估等多模态信息。然而,现有人工智能模型多聚焦单一任务或单一模态数据,缺乏对复杂临床流程的整体理解与支撑能力。
近期,来自清华大学、广州医科大学、贵州省人民医院及首都医科大学天坛医院等科研团队在《Nature Biomedical Engineering》发表了题为《A vision–language pretrained transformer for versatile clinical respiratory disease applications》的研究,提出了全球首个针对呼吸系统疾病的视觉–语言预训练模型MedMPT。该模型以自监督多模态学习为核心,从影像到文本再到药物关联,构建出一个能够贯通诊断、报告生成与处方推荐的通用医学人工智能框架,为未来“通用型临床AI”奠定了技术基础。

01
MedMPT的设计框架
呼吸系统疾病诊断过程复杂,医生往往需要综合影像学特征、检验指标及患者病史作出判断。传统AI模型受限于数据标签与任务划分,难以复现这一综合性决策流程。MedMPT以此为突破点,设计了一个基于视觉–语言预训练框架(vision–language pretrained transformer framework),旨在统一影像、文本与结构化临床数据的语义空间,实现跨模态医学知识建模。
研究团队建立了一个包含154,274对胸部CT影像与放射学报告的配对数据集,采用对比学习(contrastive learning)与生成学习(generative learning)联合的自监督训练策略。模型通过对齐影像与语言模态的表征,在未标注数据上学习医学语义对应关系,为多任务迁移奠定了基础。
架构上,MedMPT是一个统一的多模态预训练Transformer框架(unified multimodal pretrained transformer framework),通过注意力机制(attention mechanisms)捕捉不同模态之间的关联关系。模型整体由视觉编码器(vision encoder)、文本编码器(text encoder)、视觉解码器(vision decoder)与文本解码器(text decoder)构成,用于实现影像–语言的联合表征与生成。其中,视觉编码器结合切片编码(slice encoding)与切片融合模块(slice fusion module)以适应多层CT影像特征,视觉解码器通过重建被遮蔽影像区域实现细粒度视觉学习;文本编码器从放射学报告中提取语义表征,文本解码器则在影像特征条件下生成对应报告。
模型同时支持多源输入,包括影像数据(CT scans)、文本报告(radiology reports)、结构化临床特征(laboratory values, demographics)以及药物共现网络(drug co-occurrence graphs)。通过统一的跨模态注意力机制(cross-modal attention),MedMPT在单一架构中实现了多模态信息融合与语义交互。输出端支持疾病诊断、报告生成和处方推荐等多种下游任务,形成端到端的临床推理流程,为多模态医学智能系统的构建提供了通用框架。

图2 | MedMPT预训练框架及微调策略概览。
a,MedMPT的预训练框架,利用成对的CT扫描和报告,以多任务模式(multi-task pattern)训练视觉编码器、视觉解码器、文本编码器和文本解码器,从而提取多模态医疗数据的多尺度表征。b,MedMPT向下游任务迁移的框架。预训练模块与附加模块一起用于支持多模态下游任务。在评估时,预训练参数可以进行微调或冻结。
02
多任务评估:诊断、报告与处方的全面跃升
1) 肺部疾病诊断
MedMPT多任务评估:诊断、报告与处方的全面跃升
在多项呼吸系统疾病诊断任务中表现出显著优势。在基于CT图像的疾病诊断任务中,研究团队利用NLST数据集进行肺癌筛查评估,并利用MosMedData数据集进行COVID-19诊断及严重程度分级。实验对比了MedMPT与包括ViT(ImageNet-21k预训练)、OpenAI CLIP、PubMedCLIP、BiomedCLIP、Med-Flamingo及LLaVA-Med在内的多种模型。
在全参数微调(end-to-end fine-tuning)设置下,MedMPT在各项任务中均表现出显著优势。具体数据表明,在肺癌筛查任务中,MedMPT实现了0.8958的准确率(95% CI, 0.8953–0.8981)和0.9269的AUROC(95% CI, 0.9260–0.9288),显著优于次优模型LLaVA-Med(AUROC 0.8423, P<0.0001)。在COVID-19诊断任务中,MedMPT的准确率为0.8892,AUROC为0.9391;针对更具挑战性的COVID-19严重程度分级,其准确率达到0.7477,AUROC为0.8521,相较于对比模型,AUROC提升超过0.0530。总体而言,MedMPT较自然基线模型平均准确率提升0.1139,较BiomedCLIP提升0.0791。
在线性探测(linear probing)实验中,即冻结视觉编码器仅更新线性分类头(涉及约1,000–2,000个参数),MedMPT仍表现出稳健性能。其在肺癌筛查中的AUROC达到0.8238,COVID-19诊断为0.9175,严重程度分级为0.7685。该结果表明,MedMPT具有较高的数据与参数效率,即便在极少参数更新的情况下,其性能亦能匹敌甚至超越部分全参数微调的对比模型。

图3 | 疾病诊断和报告生成性能。
a,基于CT的诊断任务端到端微调的准确率:肺癌筛查(n=194)、COVID-19诊断(n=1,110)和COVID-19严重程度分级(n=1,108)。b,三个诊断任务的线性探测(Linear probing)ROC曲线。图中数值为ROC曲线下面积及95%置信区间(CIs)。虚线代表随机分类器的性能以供参考。c,内部测试集(n=551)上报告生成的定量指标。d,外部测试集(n=178)上的报告生成性能。数据显示为均值和95%置信区间(采用1,000次重采样的Bootstrap法)。P值使用MedMPT与最具竞争力的模型之间的双侧Wilcoxon秩和检验计算。
2) 放射报告生成:让AI写出医生级诊断书
在报告生成任务中,MedMPT通过视觉编码器提取影像特征,经跨模态Transformer与语言解码器生成自然语言报告。该任务评估模型根据CT扫描自动生成放射学报告的能力,采用BLEU、ROUGE及METEOR等指标衡量生成文本的语言质量与语义正确性。MedMPT在此任务中展现了优于Med-Flamingo和LLaVA-Med的性能。
在内部测试集(n=551)上,MedMPT在大多数指标上均取得领先,其中BLEU-4得分为0.2123,ROUGE-L得分为0.3169。相比次优模型,MedMPT在BLEU-1上的提升超过0.1391,在BLEU-4上提升超过0.0762(P<0.0001)。定性分析显示,MedMPT生成的报告能够准确描述CT影像中的视觉模式(如磨玻璃影、结节边缘特征)并使用专业的医学术语,而对比模型生成的报告常包含无关或幻觉内容。
此外,研究进行了零样本(zero-shot)评估,即直接使用预训练模型生成报告而不进行特定任务微调。MedMPT在零样本设置下实现了0.1961的BLEU-4分数和0.3023的ROUGE-L分数,相较于全监督训练性能下降不到0.02,验证了预训练阶段跨模态生成任务(Cross-modal Generation)对临床语义对齐的有效性。相比之下,比较模型显示性能大幅下降,凸显了MedMPT的稳健性。

图4 | 多模态处方推荐的性能。
a,端到端微调下,MedMPT及对比模型在内部测试集(n=551)上的召回率、精确率和F1分数。b,外部测试集(n=178)上的性能比较。c,MedMPT推荐药物与回顾性处方标签对比的两个示例。患者诊断仅用于说明目的,模型未获取该信息。Diyu tablet(地榆升白片),一种用于增加白细胞计数的中药。d,使用参数高效策略(parameter-efficient strategy)在内部测试集上的性能,该策略中预训练权重被冻结,仅微调特定任务模块。数据显示为均值和95%置信区间(采用1,000次重采样的Bootstrap法)。P值使用MedMPT与最具竞争力的模型之间的双侧Wilcoxon秩和检验计算。
3) 智能处方推荐:AI辅助个体化用药
处方推荐任务要求模型综合处理CT图像、放射报告、人口统计学信息及实验室检测结果等多模态数据,以推荐合适的药物列表。MedMPT为此构建了包含药物共现图谱(Medication Co-occurrence Graph)的特定模块以捕捉药物间的依赖关系。
在内部测试集上,MedMPT实现了0.5703的精确率(Precision)、0.4438的召回率(Recall)及0.4576的F1分数。该性能显著优于第二好的PubMedCLIP(精确率0.5532)及BiomedCLIP(召回率0.4140),所有差异均具有统计学意义(P<0.0001)。外部验证集(n=178)的结果显示MedMPT保持了稳定的泛化能力(F1分数0.4262)。
消融研究证实了多模态输入的必要性:仅使用单一模态(如仅CT或仅报告)时,最高F1分数仅为0.3711,而全模态输入显著提升了模型对患者状况的综合分析能力。临床医生评估显示,MedMPT推荐的处方中,73.9%获得了满分(5分),平均得分为4.54分,表明其能够根据患者检查和药物关联提供合理的、专家般的处方。临床医生认识到MedMPT在处方方面提供了宝贵的建议和帮助,提高了他们的决策能力和效率。
4) 临床验证与人机协作:AI让医生更高效
在模拟临床实验中,研究团队邀请不同经验层级的放射科医生(初级、中级、高级)参与“AI辅助报告生成”测试。
在效率方面,引入MedMPT辅助后,放射科医生撰写报告的平均时间从334.47秒缩短至228.28秒,整体时间减少31.75%。其中,高级放射科医生受益最大(减少37.34%),初级医生次之(24.85%)。这表明经验丰富的医生能更高效地整合AI生成的草稿。
在质量方面(基于可读性、准确性、完整性的1-10分评分),AI辅助显著降低了关键错误率。初级医生独立撰写报告的关键错误率为6%,在AI辅助下降至2%;中级和高级医生在AI辅助下未出现关键错误。临床接受率(所有分项评分≥7)方面,AI生成报告的基准接受率为73%,经人机协作后,初级组的接受率从独立工作的67%提升至75%,中级组从88%提升至92%,高级组从96%提升至98%。这些结果凸显了MedMPT在提高放射学报告质量方面具有巨大潜力,特别是对于经验不足的放射科医生而言。MedMPT能够可靠地检测原发病变并使用专业术语(如肺气肿、慢性阻塞性肺疾病及间质性肺炎),尽管存在轻微的不准确或偶尔缺乏临床焦点,但未实质性影响临床效用,为医生提供了坚实的修正基础,可支持放射科医生生成更准确、完整和临床可接受的报告。人类与人工智能的协作不仅减少了重大修改的需要,而且缩小了经验水平之间的差距。
人机协作实验进一步表明,MedMPT生成的报告能够帮助医生快速识别病变并轻松完善描述,从而提高最终报告的准确性与完整性。研究结论指出,MedMPT在不同经验水平下均能提升临床工作流的效率与质量,其最佳定位是作为增强医疗专业人员能力的辅助工具,而非替代品,这突显了优化人机协作模式及加强临床医生AI整合培训的重要性。

图5 | 放射报告生成中的人机协作。
遵循常规放射工作流,比较有无AI辅助时的报告时间和报告质量。a,放射科医生在有无参考MedMPT生成报告情况下的报告时间。b,报告在可读性、准确性和完整性方面的质量评分。柱状图显示均值,误差条代表标准差。单个数据点的结果以散点形式叠加。灰色虚线和阴影显示AI生成报告评分的均值和标准差。c,报告生成中人机协作的案例研究。图中展示了参考报告、突出关键发现(通常是异常病灶)的最相关CT切片,以及由MedMPT生成的报告(AI撰写)、放射科医生独立撰写的报告(人工撰写)和有AI辅助的放射科医生撰写的报告(AI辅助人工撰写)。放射科医生所做的修改使用颜色编码注释突出显示。包含了放射科医生生成报告的完成时间和质量评分。在MedMPT生成报告的基础上,人机协作报告结合了放射科医生的临床见解与MedMPT生成的细节,在更短的时间内提高了其临床相关性和适用性。
03
总结与展望
这项研究系统地评估了MedMPT,将其与医学领域的先进视觉语言预训练模型进行基准比较,在不同的临床对齐应用中进行定量评估、定性分析、人类专家评估和消融研究。MedMPT在不同场景中表现出卓越的性能和适用性,凸显了其作为在临床实践中开发基础模型的有前景方法的潜力。人类专家评估表明,有效的人类与人工智能协作可以带来更精确的诊断、更明智的治疗计划,从而改善患者的治疗效果。
尽管MedMPT在多项临床任务评估中表现优异,研究团队指出当前工作仍存在局限性。
1.现有研究主要聚焦于呼吸系统疾病,所涵盖的数据模态局限于胸部CT、放射学报告、实验室检测及人口统计学信息,模型对其他医学模态的泛化能力尚未得到验证。针对上述局限,研究团队计划开展前瞻性评估(prospective evaluations),以更全面地探索MedMPT在真实临床环境中的实际影响与有效性。
2.研究特别强调了MedMPT的临床定位:该模型应作为人类专家的辅助支持系统(supportive system),而非替代品。完全依赖模型独立完成临床任务可能导致不安全的结果,因此必须防止潜在的误用。
▼参考资料
Ma, L., Liang, H., He, Y. et al. A vision–language pretrained transformer for versatile clinical respiratory disease applications. Nat. Biomed. Eng (2025). https://doi.org/10.1038/s41551-025-01544-z
END
撰文 | 程虞茜 姜泽坤
编辑 | 余帆
审核 | 医工学人理事会
扫码加入医工学人,进入综合及细分领域群聊,参与线上线下交流活动

推荐阅读
npj Digital Medicine | 慢性肾病患者的“心跳时钟”紊乱:宾夕法尼亚大学利用可穿戴设备发现早期风险预警信号
Nat. Rev. Bioeng. | 瑞士巴塞尔大学医院等机构构建“巴塞尔可穿戴诊所”
点击关注医工学人

更多推荐




所有评论(0)