M-VLM【2】:Evidence-based diagnostic reasoning with multi-agent copilot for human pathology
本文提出了一种基于多智能体协同的病理诊断系统PathChat+与SlideSeek,通过整合多模态大语言模型和自主推理能力,显著提升了计算病理学的诊断水平。PathChat+在超过100万条病理学指令数据上训练,支持多图像输入和高分辨率切片处理,在多项病理学基准测试中优于现有模型。SlideSeek系统采用多智能体架构,通过监督代理、探索代理和报告代理的协同工作,实现了对全视野切片的自主导航和分层
文章目录
前言
原论文链接:Evidence-based diagnostic reasoning with multi-agent copilot for human pathology
Abstract
病理学正经历由全视野切片成像和人工智能(AI)推动的快速数字化转型。尽管基于深度学习的计算病理学已经取得显著成功,但传统模型主要专注于图像分析,而没有整合自然语言指令或丰富的文本语境。当前应用于计算病理学的多模态大语言模型(MLLMs)存在一些局限,包括训练数据不足、对多图像理解的支持和评估不充分,以及缺乏自主的诊断推理能力。为了解决这些问题,我们提出了 PathChat+,一个专门为人类病理学设计的新型 MLLM,该模型在超过 100 万条多样化的病理学指令样本和近 550 万轮问答数据上进行训练。我们在多个病理学基准测试中进行了广泛评估,结果表明,PathChat+ 显著优于此前的 PathChat copilot,以及当前最先进的通用模型和其他病理学专用模型。进一步地,我们提出了 SlideSeek,一个基于推理的多智能体 AI 系统,它利用 PathChat+ 通过迭代的、分层的诊断推理来自主评估千兆像素级的全视野切片(WSIs),在具有挑战性的开放式鉴别诊断基准 DDxBench 上取得了高准确率,并且能够生成具有视觉依据、可供人类解释的总结性报告。
Introduction
Motivation
现有计算病理学与多模态大模型在临床应用上仍存在显著不足,主要体现在:
- 单模态局限
- 传统计算病理学模型大多是“图像驱动”,忽视了病理学文献、临床语境等丰富的文本知识。
- 缺乏自然语言指令理解与诊断推理能力。
- 缺乏多图像/全切片支持
- 现有方法多停留在单 ROI 或单图像问答,不能综合多个区域信息。
- 难以适应病理实际诊断中需要“跨区域、跨尺度”的推理需求。
- 缺乏自主性和推理链条
- 当前模型大多是被动应答,依赖人工或预定义 ROI 选择。
- 缺乏自主导航、分层推理与透明的诊断链条。
- 现有少数探索(如自动缩放/导航)也往往依赖任务特定标注,泛化性差。
这些不足直接构成了本文的研究动机:亟需一种既具备病理学专业知识、又能多模态推理,并可自主执行全切片诊断分析的智能系统。
Contribution
本文针对上述问题,提出了两个主要创新:
- PathChat+:病理学专用多模态大模型
- 在 113 万条指令、549 万轮问答、覆盖全病理学领域的数据上训练。
- 支持多图像输入与高分辨率切片处理。
- 在 VQA、图像分类、图像描述等多项病理学基准上显著优于 GPT-4o、Gemini、Claude 等通用模型以及 Quilt-LLaVA、HuatuoGPT-Vision 等专用模型。
- SlideSeek:推理驱动的多智能体自主诊断系统
- 引入 Supervisor agent(负责推理与规划)、Explorer agents(多尺度区域分析)、Report agent(可解释诊断总结)。
- 能够自主在千兆像素 WSIs 上导航、分层探索与整合证据链。
- 在 DDxBench(52 种肿瘤、150 张切片) 上,取得 80% 主诊断准确率,当考虑鉴别诊断时准确率高达 93.3%。
- 输出可解释的诊断推理链条,增强了临床应用的可信度与透明度。
论文的整体贡献在于:首次将大规模病理专用多模态大模型与多智能体自主推理框架结合,实现了从 ROI 到全切片的端到端智能诊断。
Methods
PathChat+ dataset curation
为了对 PathChat+ 进行指令微调,我们构建了一个新的多样化指令数据集,涵盖不同的格式与主题,来源包括内部病例报告、教学材料、演示文稿,以及院内全视野切片(WSIs)中带注释的 ROI。我们首先去除分辨率过小的图像(小于 336 × 336 像素)。随后,我们通过微调轻量级基础模型 CONCH 的图像编码器,在一小部分人工标注样本上进行训练,以区分病理学图像与非病理图像(如实验设备或人物照片),作为质量控制。同样地,我们还利用轻量级本地 LLM(如 Qwen2-7B)过滤掉质量较差的源材料,例如过于简略的描述(如 “This is an H&E stained slide”),或者文字内容与图像没有明确对应关系的模糊样本。
与以往多模态大模型工作(如 LLaVA)类似,对于部分指令格式,我们使用通用大语言模型将原始文本自动转化为 问答形式。例如,将图像描述改写为回答自然问题(如 “你能为这张肺活检图像提供形态学描述吗?”),或者将病例报告中提到的代表性区域转化为多选题,正确答案为真实诊断,其他选项为报告中提到的其他鉴别诊断或形态学上不同的实体。在这些场景下,我们针对不同数据源设计了专门的提示词,并与病理学专家反复迭代,直到随机抽样的子集达到满意的数据质量。
最后,与先前的 PathChat 类似,我们将部分非病理图像与公开数据集(如 MS COCO)中的自然图像结合,构建 防护样例(guardrail examples),用于训练模型在接收到与病理无关的查询时,输出固定回复(例如 “对不起,我只能协助处理与病理图像分析相关的请求”)。
最终,我们的数据集包含 1,133,241 条指令样例,共计 549 万个问答回合,覆盖 62.4 万张独特图像(中位宽度 759 像素,中位高度 607 像素),其中剔除了 8,034 张防护图像。指令格式大致分为:
- “对话类”(238,983 条)、
- “描述类”(163,342 条)、
- “多选题类”(78,443 条)、
- “自由回答类”(354,558 条)、
- “纯文本类”(289,881 条)、
- “防护类”(8,034 条)。
PathChat+ architecture and training
PathChat+ 是一个多模态大语言模型(MLLM),被设计与训练来同时理解视觉输入(即病理图像)与文本输入(例如指令提示,要求模型描述组织学形态或给出可能的诊断)。其总体架构遵循 PathChat 1 与主流先进 MLLMs 的设计,包括:
- 视觉编码器(vision encoder):将图像从 RGB 像素转化为紧凑的特征表示;
- 解码式自回归语言模型(LLM):将视觉与文本表示转化为自然语言输出;
- 多模态投影器(multimodal projector):用于将视觉特征映射到 LLM 的嵌入空间。
在视觉编码器部分,我们采用了 CONCH v1.5(基于 ViT-L 架构),其在多种计算病理任务中表现稳健,适合作为基础视觉特征提取器。多模态投影器则由一个注意力池化层和两层带 GeLU 激活的 MLP 组成,将视觉特征转化为与 LLM 词嵌入兼容的向量序列。LLM 主干采用 Qwen2.5,我们选择了 140 亿参数的指令跟随版本,在计算成本与性能之间取得平衡。
与 PathChat 1 相比,我们引入了 AnyRes 策略 来处理高分辨率图像。具体方法是:将输入图像切分为 448×448 的网格块,若图像大小不足则填充至最近的网格大小。每个块单独送入视觉编码器,随后将特征拼接为整体序列。如果图像被分割为多个块,则会额外生成一个 缩略图(448×448),作为全局视图,并将其特征序列置于图像 token 序列的最前端。我们允许最大 4 个块(2×2 网格)+ 缩略图,即图像尺寸上限为 896×896。若更大则缩放到合适尺寸。
因此,每张图像被表示为可变长度的 token 序列:最少 128 个(单 448×448 图像),最多 640 个(896×896 图像 + 缩略图)。在训练与推理过程中,输入序列中的图像位置先用占位符 token 表示,进入 LLM 嵌入层后再替换为视觉编码器和投影器生成的 token 表示,最终与文本 token 融合。对于多图像输入,我们使用换行符 \n 区分不同图像。
训练过程分为两个阶段:
- 预训练阶段:冻结 LLM 主干,仅用十万张图像及其标注描述训练多模态适配器(vision encoder + projector)。这种方式被证明能提升下游性能,相比直接端到端训练更稳定。(8 x A100 80G)
- 指令微调阶段:解冻 LLM 与投影器,对完整的指令数据集进行训练,使模型学习生成参考答案。在这一阶段,损失函数仅作用于回答部分(不作用于问题文本或图像 token)。(24 x A100 80G)
SlideSeek architecture design
SlideSeek 是一个能够通过规划与自引导的分层探索来自动分析千兆像素全视野切片(WSIs)的多智能体系统。下文将概述其关键组成部分,并在算法 1 中展示整体工作流程。
在 SlideSeek 架构中,监督代理(supervisor agent) 是核心组件,负责高层次的策略制定、任务分配和系统化的切片探索。它接收初始的任务描述、患者及样本的上下文信息(如组织类型、性别)以及切片的初步视觉信息。视觉数据包括切片整体尺寸、包含组织区域的边界框坐标,以及低分辨率的缩略图。组织区域的边界框由 Trident WSI 预处理库 自动识别。
监督代理的任务指令是:“你是一名主管病理学家,负责远程协调一组病理医生。你的任务是系统性地检查整个切片,并做出诊断。请制定详细的探索计划,明确需要调查的具体区域与放大倍率,并将其分解为逻辑步骤分配给下属病理医生。每一步结束后,请审阅他们的发现并决定下一步行动。”
在初始化后,监督代理会根据切片生成初步诊断假设,并据此制定探索计划,优先级包括:需要深入检查的区域、关注的病理特征、推荐的放大倍率等。随后,它将计划分配为明确任务,指派给多个 探索代理(explorer agents)。每个任务会具体说明空间坐标、观察范围(例如“检查组织区域#3:x=1000–2000,y=3000–4000”)、放大倍率(如 1.25× 用于组织结构,20× 用于细胞特征)、需要记录的形态学特征及当前诊断假设的背景。
多个 探索代理 会并行执行任务。它们接收监督代理的指令,利用缩略图进行定位,并通过 Slide-viewer API(基于 OpenSlide 库实现)提取指定位置与放大倍率的图像区域。随后,这些 ROI 图像会被送入 PathChat+,由其识别关键形态学特征,辅助探索代理进行诊断性分析。探索完成后,探索代理将包含关键信息的 ROI 及其发现报告反馈给监督代理。整个过程会迭代进行,监督代理根据新证据不断更新假设与计划,直到收集到足够证据支持诊断为止。
当监督代理认定已收集到充分的诊断证据后,会整理出最多 10 个关键 ROI,提交给 PathChat+ 进行最终的鉴别诊断。最后,一个独立的 报告代理(report agent) 会生成一份总结性诊断报告,包含显微发现、主要诊断与可能的其他候选诊断。该报告是人类可解释的,并将形态学特征明确对应到具体的 ROI 坐标。
Agent Definition:
- 监督代理(Supervisor Agent)
- 定义
- 核心角色,相当于“主治/主管病理医生”;
- 负责 制定探索计划、生成初步诊断假设、分解任务、分配给探索代理、整合反馈;
- 迭代式推理:不断根据新证据修正假设与计划,直到收集到足够证据支持诊断。
- 模型/工具实现
- 使用 OpenAI o1(reasoning model)作为监督代理的 LLM;
- 选择 o1 的原因:其在指令跟随和复杂推理方面性能优异,适合作为“规划+诊断推理”大脑。
- 定义
- 探索代理(Explorer Agents)
- 定义
- 相当于“住院/助理病理医生”;
- 负责 在指定坐标和放大倍率下获取 ROI,并用 PathChat+ 分析形态学特征;
- 输出局部发现与关键信息,反馈给监督代理。
- 模型/工具实现
- 使用 OpenAI GPT-4o 作为探索代理;
- 它主要做 结构化任务执行(ROI 提取、信息记录、总结)而不是复杂推理,所以选择 GPT-4o(相对低延迟、经济);
- ROI 获取依赖 Slide-viewer API(基于 OpenSlide 库);
- ROI 的病理学解析则通过 PathChat+(病理专用 MLLM)完成。
- 定义
- 报告代理(Report Agent)
- 定义
- 相当于“病理报告撰写助手”;
- 负责 将 supervisor 收集到的关键信息(ROI、形态学特征、推理链)转化为最终报告;
- 报告内容包含:主要诊断、鉴别诊断、关键证据(ROI + 对应特征)。
- 模型/工具实现
- 文中没有指定单独的模型名称,但说明其是一个独立 agent;
- 从上下文推断:报告代理主要调用 LLM(可能也是 GPT-4o 或 o1) 来生成自然语言总结,基于 supervisor + explorer 的结构化输入;
- 输出风格是 人类可解释的诊断报告,并明确链接 ROI 坐标与形态学证据。
- 定义
Experiment
总结
这篇论文提出了病理学专用多模态大模型 PathChat+ 及其驱动的多智能体系统 SlideSeek,实现了对全视野切片的自主诊断推理与可解释报告生成,在准确性和临床实用性上均显著超越现有模型。
更多推荐
所有评论(0)