UniMedVL:统一的医疗多模态理解和生成模型
这篇论文(UniMedVL: Unifying Medical Multimodal Understanding and Generation through Observation-Knowledge-Analysis)提出了一种名为的统一医疗多模态大模型,旨在解决当前医疗AI系统中理解(如诊断报告)与生成(如图像合成)能力割裂的问题。以下是关于该论文中和。
这篇论文(UniMedVL: Unifying Medical Multimodal Understanding and Generation through Observation-Knowledge-Analysis)提出了一种名为 UniMedVL 的统一医疗多模态大模型,旨在解决当前医疗AI系统中理解(如诊断报告)与生成(如图像合成)能力割裂的问题。
以下是关于该论文中数据构建和模型构建细节的详细总结:
UniMedVL:数据与模型构建详解
一、 数据构建:UniMed-5M 数据集 (Observation Level)
为了支持统一的理解与生成任务,作者构建了一个包含超过 560万 个样本的大规模多模态医疗数据集,名为 UniMed-5M。该数据集的构建遵循“观察-知识-分析”(OKA)范式中的观察(Observation)层面。
1. 数据来源与覆盖范围
- 规模:总计约 5.6M 样本。
- 模态:覆盖 9种 主要医学成像模态,包括胸部X光 (CXR)、组织病理学图像 (HIS)、CT扫描、MRI序列、彩色眼底摄影 (CFP)、光学相干断层扫描 (OCT)、内窥镜、超声和荧光显微镜 (FM)。
- 来源:整合了多个公共数据库(如 PMC-OA, Quilt-1M, PubMedVision, GMAI-VL, CheXpertPlus 等)以及专门合成的数据。
2. 质量控制流水线 (Quality Control Pipeline)
为了确保数据质量,作者采用了三步过滤机制:
- 粗过滤 (Coarse Filtering):
- 图像预处理:模态特定的归一化,过滤分辨率低于 128 × 128 128 \times 128 128×128 像素的图像。
- 文本处理:保留医学术语的专用分词,长度限制在 16-1024 字符之间。
- 医学对齐 (Medical Alignment):
- 利用 MedGemma-27b 模型为每张图像生成5个不同的描述。
- 计算语义相似度(使用 E5-large-v2)和医学特定对齐度(使用 MedSigLIP)。
- 计算综合对齐分数,仅保留前 50% 的高质量图文对。
- 专家验证 (Expert Validation):
- 医学专家从7个维度(如模态匹配、事实准确性、完整性等)对数据进行质量审核,确保临床相关性。
3. 交错任务构建 (Interleaved Tasks Construction)
为了训练模型处理复杂的输入输出,专门构建了包含图像和文本交错的任务数据(如提示分割、超分、反事实生成、虚拟染色等):
- 模板化 (Templateization):将输入输出标准化为结构化的图文对,使用文本提示引导模型。
- VLLM Captioning:使用视觉语言模型生成语义丰富的文本描述,解释图像中的解剖结构和医学见解。
二、 模型构建:UniMedVL 架构与训练 (Analysis & Knowledge Level)
模型构建部分对应 OKA 范式中的分析(Analysis)层面,而训练策略对应知识(Knowledge)层面。
1. 模型架构 (Model Architecture)
采用了双视觉编码器和混合Transformer专家(MoT)的统一架构(采用和BAGEL一样的架构):
- 双视觉编码器 (Dual Visual Encoders):解决理解任务(需高层语义)和生成任务(需像素级细节)对特征粒度需求不同的矛盾。
- E V i T E_{ViT} EViT (Understanding-oriented):提取语义 Token,用于多模态理解任务。
- E V A E E_{VAE} EVAE (Generation-oriented):提取潜在表示(Latent Representations),用于视觉合成任务。
- 混合 Transformer 专家 (Mixture-of-Transformer-Experts, MoT):
- 理解专家 (Understanding Expert):处理交错的文本和 ViT Token 序列,负责视觉-语言理解。
- 生成专家 (Generation Expert):处理 VAE 的潜在 Token,通过交叉注意力机制接收文本条件,负责图像生成。
- 连接层与解码器:
- 投影层 ( f V i T , f V A E f_{ViT}, f_{VAE} fViT,fVAE) 将不同编码器的特征映射到共享的隐藏维度。
- 解码器 ( D V A E D_{VAE} DVAE) 将生成的潜在表示重建回像素空间。
2. 训练目标 (Training Objectives)
模型通过统一的损失函数进行端到端训练:
- 理解任务:使用下一个 Token 预测 (Next-Token Prediction) 损失 L N T P L_{NTP} LNTP。
- 生成任务:在 VAE 潜在空间上应用流匹配 (Flow Matching) 损失 L f l o w L_{flow} Lflow。
- 总损失: L = L N T P + α ⋅ L f l o w L = L_{NTP} + \alpha \cdot L_{flow} L=LNTP+α⋅Lflow (其中 α \alpha α 用于平衡生成任务的贡献)。
3. 渐进式课程学习 (Progressive Curriculum Learning)
为了有效地融合跨模态知识,作者提出了三阶段的训练策略:
- 阶段 1:基础训练 (Foundation Training)
- 目标:建立基础的医学领域认知和广泛的模式识别。
- 数据:优先考虑图生文任务 (75%),辅以文生图 (25%) 和纯文本数据。
- 设置:训练 ViT 和 LLM 组件,冻结 VAE。
- 阶段 2:指令微调 (Instruction Tuning)
- 目标:系统地发展医学专业知识。
- 数据:高质量的指令数据。
- 增强策略:
- 理解任务:使用蒸馏思维链 (DCOT),显式表达从观察到结论的推理路径。
- 生成任务:使用描述增强生成 (CAG) 流水线,包含结构化规划步骤以指导视觉合成。
- 设置:冻结 ViT 编码器以保留视觉特征,增加 Token 容量。
- 阶段 3:统一多模态训练 (Unified Multimodal Training)
- 目标:发展复杂的交错任务能力(如虚拟染色、跨模态合成)。
- 数据:显著增加交错数据集的使用比例 (25%)。
- 设置:支持更高分辨率的图像生成,微调模型以处理同时包含理解和生成需求的复杂序列。
4. 硬件与实现细节
- 基座模型:使用了预训练的 FLUX VAE(无需微调)作为生成部分的 VAE。
- 训练设施:实验验证使用 8× A800 GPUs (80GB),推荐使用 16× A800 以获得最佳效率。
- 优化器:AdamW,损失权重比 CE:MSE 为 0.25:1.0。
更多推荐



所有评论(0)