1 研究背景与意义

医疗健康是关系民生的重大问题,人工智能技术在辅助医生工作、提升医疗服务效率、质量与公平性方面成为全球关注的焦点。尽管大型语言模型(LLM)在医疗领域展现出巨大潜力,例如GPT-4和MedPalm-2等闭源模型在美国医师执照考试(USMLE)中表现出色,开源模型如Llama 2也促进了MEDITRON、PMC-LLaMA等医学专用模型的发展,但当前大多数先进的医疗大模型主要侧重于英语应用,缺乏处理多语言医疗专业数据的能力。这限制了这些模型的潜在影响力,使其无法惠及更广泛、语言多样化的全球受众,尤其是在非英语国家和地区。医疗AI的发展与现实医疗系统之间存在脱节,许多地区甚至缺乏基本的医疗服务和物资,盲目推进AI可能加剧全球健康不平等。因此,开发多语言医学大语言模型对于改善全球医疗资源分配不均、克服语言障碍、提高医疗服务的可及性和质量具有重要意义。

2 核心贡献

该研究团队在论文中做出了三项核心贡献:

  1. 创建大规模多语言医疗语料库(MMedC)​​:团队构建了一个包含255亿tokens的多语言医疗语料库,涵盖英语、中文、日语、法语、俄语和西班牙语六种主要语言。这些数据来自四个不同的来源:

    • 通过启发式算法从大规模通用多语言语料库(如CommonCrawl)中筛选出与医学相关的内容。

    • 搜集全球各地的电子版医疗教科书,并使用光学字符识别(OCR)技术转化为文本数据。

    • 从多个国家的获得许可的医疗相关网站抓取数据。

    • 整合已有的小型医疗语料库,以丰富和完善数据集。

      这是第一个专门针对多语言医学领域构建的大规模语料库。

  2. 开发多语言医疗问答评测基准(MMedBench)​​:研究团队设计了一项全新的多语言选择题问答评测标准,涵盖上述六种语言和21个医学子领域(如内科、生物化学、药理学和精神病学等)。该基准包含53,566个问答对,其所有问题均直接源自各国的医学考试题库,而非简单地通过翻译获得,避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。独特之处在于,每个题目不仅要求模型选择正确答案,还需提供合理的解答理由,从而同时测试模型的知识掌握和推理解释能力。

  3. 推出多语言医疗基座模型(MMed-Llama 3)​​:基于Llama 3基座模型,研究团队利用MMedC语料库进行进一步的预训练(自回归领域自适应),得到了医疗领域专用的多语言模型MMed-Llama 3。该模型参数量为80亿(8B),在多项基准测试中表现优异。

3 方法论与模型构建

3.1 数据收集与处理

MMedC语料库的构建是本研究的基础。团队采用了多种技术手段确保数据的多样性、质量和相关性。对于从通用网络语料中筛选医学内容,他们采用了启发式算法;对于纸质教科书,使用OCR技术进行数字化,并辅以人工检验和启发式数据过滤以确保质量。语料库涵盖了全球大部分地区使用的主要语言,并且团队表示对更多语言的支持仍在不断更新和扩展中。

3.2 模型训练与微调

模型训练分为两个主要阶段:

  1. 领域自适应预训练​:使用MMedC语料库对通用的基座模型(如Llama 3)进行进一步的自回归训练,使模型吸收大量的多语言医学专业知识,转化为领域专家模型(如MMed-Llama 3)。

  2. 指令微调​:使用MMedBench的训练集(包含45,048个问答对及其理由)对模型进行微调。研究特别指出,在微调时将理论数据(选择理由)与多项选择预测相结合可以有效提高模型在特定任务上的性能。模型不仅学习选择正确答案,还学习生成合理的解释,这显著提升了其在MMedBench测试集上的多项选择题准确率。

3.3 评估策略

研究团队对模型进行了全面评估,涵盖了:

  • 选择题准确率​:在MMedBench的测试集(8,518个问答对)上评估模型选择正确答案的能力。

  • 解释合理性评估​:对于一个包含1,136个手动验证合理性句子的子集,同时采用自动化指标​(如BLEU-1和ROUGE-1)和人工评估来衡量模型生成理由的质量。人工评估的引入是因为基于句子相似度的自动指标不一定能准确反映人类偏好。

    评估在三种设置下进行:零样本(Zero-shot)、参数高效微调(PEFT,如LoRA)和全量微调(Full model Finetuning),以全面衡量模型在不同场景下的性能。

4 实验结果与性能分析

4.1 主要结果

  • MMed-Llama 3性能卓越​:最终模型MMed-Llama 3在MMedBench上的平均准确率达到67.75​(全量微调设置),显著超越了其基座模型Llama 3(62.79)以及PMC-LLaMA(47.53)、MedAlpaca等其他开源医学模型,性能与GPT-4相媲美

  • 多语言性能提升​:在MMedC上的进一步预训练显著提升了模型在非英语语言上的表现,缓解了原有模型在英语上性能尚可但在其他语言上性能显著下降的问题。

  • 解释能力增强​:MMed-Llama 3在生成答案解释方面也表现出色,在BLEU-1和ROUGE-1自动指标上均有提升,并且在人工评估中最受人类用户偏好。

4.2 消融实验与关键发现

团队通过消融实验验证了其方法的有效性:

  • MMedC预训练的有效性​:在MMedC上进行自回归训练后,所有实验模型(MMedLM, MMedLM 2, MMed-Llama 3)都比其原始基线模型有显著改进,证明了领域自适应预训练的必要性和有效性。

  • 数据质量与数量的重要性​:整合来自教科书和网站的高质量数据(HQ-Data)​​ 能显著提升性能。此外,即使是从通用语料库中通过自动化方式筛选的未指定来源数据(US-Data)​,虽然质量相对较低,但其纳入也能带来进一步的性能增益,凸显了数据规模的重要性。

  • 理论融合的价值​:在微调阶段将理由与答案结合训练,不仅让模型能输出理由句子,还使模型在多项选择题准确率上获得了显著提升(Llama 3提高了4.07%)。

  • 强大基座模型的作用​:研究表明,​更强大的通用基座模型​(如Llama 3相比于此前的Llama 2)通常能带来更好的多语言医疗问答最终结果,说明通用模型的多语言能力是领域专用模型性能的重要基础。

5 讨论与未来展望

5.1 研究价值

该研究不仅推动了医疗领域多语言大模型的技术发展,也具有重要的研究和临床价值:

  • 促进通用医疗人工智能(GMAI)发展​:GMAI旨在开发能广泛应用于不同医疗场景的多模态AI模型,其中LLM常作为人机交互的纽带。多语言的LLM可以充分利用全球多种语言的数据资源,扩展可用的多模态训练数据,提升模型在其他模态(如医学影像)信息表征的质量。

  • 改进检索增强生成(RAG)​​:“幻觉”是医疗LLM的一大挑战。RAG通过从外部知识库检索事实信息来增强输出准确性。当前RAG研究多集中于英语,多语言医疗LLM可以极大地丰富检索过程可利用的多语言知识库,改善非英语场景下的性能。

5.2 临床意义

在临床实践中,该研究有望解决以下挑战:

  • 消除语言障碍​:患者与医疗服务提供者之间的语言障碍可能导致误解和误诊。多语言医学LLM可提供实时翻译和解释服务,帮助患者准确表达症状和理解诊疗方案,提升医疗服务的可及性。

  • 降低文化和法律敏感性​:多语言医学LLM可以通过训练来识别和应对不同国家在医疗互动中的文化和法律细微差别与敏感性,增强用户信任,带来更好的健康结果。

  • 助力医学教育​:在缺乏医学教育者或资源的地区,多语言医学LLM可提供多种语言的教育材料和模拟,帮助标准化医学训练,确保全球一致的护理质量。

5.3 局限性及未来方向

尽管取得了显著成果,但构建真正的全球医疗AI仍面临诸多挑战,这与中提到的AI与全球医疗系统现实不匹配的问题相呼应:

  • 基础系统支持的重要性​:AI的成功应用依赖于医疗系统在人员(Staff)、物资(Stuff)、空间(Space)、系统(Systems)、支持(Support)​​ 五个维度(5S框架)具备可持续能力。在缺乏基本医疗基础设施、物资和人力的地区,部署先进的AI模型可能本末倒置。

  • 数据偏见与公平性​:虽然MMedC涵盖了多种语言,但数据的覆盖范围和代表性仍需不断扩展和优化,以避免模型产生或放大对某些地区或人群的偏见。

  • 模型的可解释性与信任​:尽管研究已关注解释能力,但如何让医护人员和患者真正理解并信任模型的决策过程,仍需进一步探索。

  • 实际部署与集成​:将模型无缝集成到临床工作流程中,确保其可用性并减轻医护人员负担,是走向实际应用的关键一步。

    未来的工作可以集中在:扩展更多语言;探索更高效的训练和微调方法;加强模型在伦理、公平性和隐私保护方面的考量;以及与全球医疗组织合作,推动模型在真实世界场景中的试点和应用。

6 结论

上海交通大学团队的这项研究在构建多语言医学大语言模型方面做出了重要贡献。通过发布大规模多语言医疗语料库MMedC全面的评测基准MMedBench高性能的开源模型MMed-Llama 3,为全球研究社区提供了宝贵的资源和基线,极大地促进了医疗AI全球化应用的研究与发展。这项工作标志着向真正普惠的全球医疗AI迈出了坚实的一步,其成果有望帮助克服医疗领域的语言和文化障碍,改善全球医疗资源分配不均的状况,最终为提升全人类的健康福祉做出贡献。

所有模型、代码和数据均已开源,可供全球研究人员和开发者使用,从而进一步促进合作和技术共享。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐