LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

code

abstract

In this paper, we propose a cost-efficient approach for training a visionlanguage conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s).

我理解的核心贡献

使用GPT4将图片标题和描述转化成多轮对话用于训练大语言模型

别人的总结

LLaVA-Med的主要贡献包括以下几个方面:

  1. 医疗多模态大语言模型的构建
    LLaVA-Med是第一批专门针对医疗领域的大规模视觉-语言模型之一,能够同时理解医学图像和文本,为医疗AI应用提供了新的技术路径。
  2. 医疗多模态数据集的创建
    构建了大规模的医疗图像-文本配对数据集,包含放射影像、病理图像、皮肤病图像等多种医疗图像类型,为模型训练提供了丰富的医疗领域知识。
  3. 指令调优在医疗领域的应用
    将指令调优技术成功应用到医疗多模态任务中,使模型能够理解和执行各种医疗相关的视觉问答任务,如影像诊断、病变描述等。
  4. 医疗专业知识的整合
    通过大规模预训练,模型学习了医学专业术语、解剖结构、疾病特征等医疗领域的专业知识,提升了在医疗场景下的表现。
  5. 多任务医疗AI能力
    展示了在医学图像分析、放射学报告生成、医疗问答等多个任务上的良好性能,证明了通用多模态模型在医疗领域应用的可行性。
  6. 为医疗AI研究提供基准
    为后续的医疗多模态模型研究提供了重要的基准和参考,推动了医疗AI领域的发展。
    这些贡献使LLaVA-Med成为医疗AI领域的一个重要里程碑,为医疗诊断辅助、医学教育等应用场景奠定了技术基础。

实验

评估指标。对于封闭集问题,我们报告准确率。对于开放集问题,我们使用Recall召回率来评估生成序列中真实标记出现的概率。在文献中,训练集中的唯一答案被视为候选答案,模型可以从中选择答案来预测测试问题的答案。由于我们没有对开放集问题的答案设置任何限制,因此我们的公式更接近开放集的本质,但本质上难度更大。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐