前言

原论文链接:Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner


Abstract

近年来,视觉–语言模型(VLMs)的发展推动了医学领域的广泛进步。然而,病理学依然是一个更具挑战性的子领域,目前专门针对病理学的 VLMs 在诊断准确性和推理合理性上仍然存在局限。这些缺陷主要归因于现有病理学数据集的性质:它们主要由图像–描述对组成,缺乏现实病理学家所采用的深入且结构化的诊断范式。在本研究中,我们利用病理学教材和现实中的病理专家,构建了高质量、面向推理的数据集。在此基础上,我们提出 Patho-R1,一个基于多模态强化学习的病理学推理模型,其训练分为三阶段:(1)在 350 万对图文样本上进行继续预训练,以注入知识;(2)在 50 万条高质量的链式思维(Chain-of-Thought)样本上进行监督微调,以激励推理;(3)利用 GRPO 和 DAPO 进行强化学习,以进一步提升多模态推理质量。为了评估数据集的对齐质量,我们还提出了 Patho-CLIP,它在与继续预训练相同的图文语料上进行训练。全面的实验结果表明,Patho-CLIP 和 Patho-R1 在病理学相关的多种任务上都表现出了稳健的性能,包括零样本分类、跨模态检索、视觉问答(VQA)以及多选题任务。


Introduction

Motivation

  • 病理学重要性与挑战
    • 病理学是现代临床诊断的金标准,但其数据复杂且细粒度特征明显,远比 MRI/CT 等影像学任务更具挑战。
    • 高质量、专家标注的病理多模态数据集稀缺,严重限制了 AI 模型的发展。
  • 现有方法的不足
    • 通用 VLM(如 CLIP、LLaVA)在病理学任务上的表现有限,尤其在 跨疾病泛化复杂诊断理解 上存在明显短板。
    • 病理专用多模态模型虽然在 MCQ/VQA 等基准上有一定突破,但 推理过程不透明、缺乏可解释性和可信度,难以满足临床应用需求。
    • 当前数据集多来自教育视频、社交媒体或机构档案,文本描述停留在 表层对照,缺乏临床医生使用的 结构化诊断推理链条
  • 新的方法契机
    • 强化学习(RL)在语言模型推理增强中表现出巨大潜力,尤其是 GRPODAPO 策略,能够让模型学会 系统性思考与结构化判断
    • 借助“教材级”高质量数据与 RL 优化,有机会构建一个既能 准确诊断 又具备 可解释推理 的病理学多模态模型。

Contribution

  • 一句话理解
    • Patho-CLIP = 让模型“看懂”病理图像并对齐描述
    • Patho-R1 = 让模型像病理医生一样“思考并推理”
  • 提出 Patho-CLIP:一个病理学专用 CLIP 模型,在分类和跨模态检索中超越现有 SOTA。
    • 核心定位:跨模态表示学习(image–text 对齐)。
    • 主要目标
      1. 构建一个病理学专用的跨模态检索与分类模型,解决通用 CLIP 在病理任务中表现不佳的问题。
      2. 通过对 350 万图文对(含教材、公共数据)的训练,提升模型对 病理组织细微形态差异语义表达 的理解。
    • 解决的问题
      • 现有 CLIP 模型大多在自然图像或广义医学领域训练 → 无法捕捉病理图像的细粒度特征
      • 现有病理数据集文本多为表层描述 → 缺乏诊断语义对齐
    • 评估任务:零样本分类、跨模态检索。
      • 本质上是“看图找描述 / 看描述找图”,强调感知和表示对齐
  • 提出 Patho-R1:一个结合强化学习(GRPO/DAPO)的多模态病理推理模型,能够生成结构化推理链条并提升诊断准确性。
    • 核心定位:多模态推理(reasoning)。
    • 主要目标
      1. 在跨模态表示的基础上,进一步让模型具备诊断式推理能力,而不仅仅是做表层匹配。
      2. 通过三阶段训练(CPT → SFT → RL),让模型学会病理学家的推理链条,并能在复杂任务中给出合理解释。
    • 解决的问题
      • 现有病理模型在 VQA / MCQ 等任务中答案准确性有限 → 缺乏结构化诊断推理
      • 模型常停留在表层视觉–文本对齐,不能还原临床医生的思维方式。
    • 评估任务:VQA(开放式/封闭式问答)、多选题(MCQ)。
      • 本质上是“根据图像一步步推理并回答问题”,强调逻辑推理与临床解释能力
  1. 方法贡献
    • 探索了 端到端病理学 VLM 适配流程:继续预训练(注入知识) → 监督微调(引入推理链) → 强化学习(优化推理质量)。
    • 首次将 RL 的 GRPO/DAPO 策略系统性引入病理学推理建模,并验证其有效性。

Methods

Dataset Overview

在这里插入图片描述

随着视觉–语言模型(VLMs)在特定领域应用潜力的不断探索,构建高质量的数据集对于开发具有临床意义的模型愈发关键。然而,现有数据集存在两个主要缺陷:(1)大多数数据集聚焦于一般医学领域,导致病理学专用数据的缺失;(2)它们通常缺乏详细、权威且诊断准确的诊断过程记录,主要集中在简单的描述和结论上。为了解决这些问题,我们整理了一个大规模、病理学专用的多模态语料库,涵盖三个公开可得的数据集、660 本权威病理学教材和教学笔记。我们的数据整理与模型训练流程如图 2 所示。

  • Continued Pretraining, CPT
    • 我们的 CPT 数据集包含总计 350 万对图文样本,其中 280 万对来自 PubMed、Quilt、PathGen,另外 70 万对来自病理学教材和笔记。该数据集也作为 PathoCLIP 的训练语料
  • Supervised Fine-tuning, SFT
    • 我们的 SFT 数据集包含 50 万条样本,来自五个病理子领域:组织病理学、宏观检查、免疫组化(IHC)、细胞学、荧光原位杂交(FISH)。每个子领域都具有三种不同层次的链式思维(Chain-of-Thoughts),涵盖四类下游任务:描述分析、复杂推理、多轮对话和多选题。这最终形成了 60 种数据组合类型
  • Reinforcement Learning, RL
    • 我们的 RL 数据集包含 1 万道诊断导向的多选题(MCQs),与 SFT 阶段定义的相同五个病理子领域保持一致

RL 阶段引入 诊断导向 MCQs 作为奖励设计的基础,强化模型在诊断任务中的推理一致性与答案正确性。这种设计与临床实际高度贴合,因为病理学诊断通常是封闭式、需要明确结论的推理任务

Continued Pretraining and PathoCLIP Training

Data Preparation

我们首先将病理学教材扫描为高分辨率图像,并使用 DocLayoutYolo 对每一页进行分割,区分正文、图像面板和图注。图–注对通过空间布局进行匹配,并通过 OCR 提取图注。对于多面板图像,我们采用边缘检测和标签识别方法将复合图像拆分,并将子图与对应的图注片段对齐。为了利用教材叙事中丰富的上下文信息,我们还通过 OCR 提取正文,并使用 Qwen-max 模型自动识别图像与周围文本之间的引用关系,从而减少人工标注需求。

PathoCLIP Training

我们采用 OpenAI-CLIP-B 和 OpenAI-CLIP-L 作为模型的骨干架构。为了构建一个同时具备细粒度形态学表征与临床病理学理解能力的跨模态模型,我们实现了一个两阶段的渐进式训练范式(受 Pathgen-1.6m 启发):

  • 在第一阶段,我们在 PathGen-1.6M 数据集上通过对比学习初始化模型,该数据集强调组织–细胞形态和空间结构,从而注入高分辨率的形态学先验
  • 在第二阶段,我们保留这些形态学表示,同时将 PathGen-1.6M 与 Quilt-1M、PathCap 以及教材提取的数据进行融合,得到一个 350 万图文对的综合语料。

实证结果表明,这一渐进策略不仅显著提升了模型对组织异质性的区分能力,还在多个病理诊断基准上的语义理解和图文检索性能上达到了 SOTA。

这一部分介绍了 PathoCLIP 的训练方法。两阶段训练逻辑是:

  • 第一阶段注重组织细胞的形态学表征(保证模型学到病理图像的底层视觉先验);
  • 第二阶段融合更多异质来源数据(Quilt、PathCap、教材),引入语义层级的诊断知识。

这种渐进式训练使模型同时具备 低层视觉敏感性高层语义理解,在检索和分类任务中表现优异。

Patho-R1 Continued Pretraining

继续预训练已被实证证明是一种有效的方法,能够将特定领域的知识注入到预训练语言模型中,同时在性能上能够与更大规模的模型竞争甚至超越它们。为了确保广泛覆盖病理学知识,我们将所有公开可用的病理学数据集与我们提取的上下文丰富的图–注对进行结合。鉴于总数据量达到 350 万样本,我们选择 Qwen2.5VL-3B 和 Qwen2.5VL-7B 作为基础模型,以在模型容量和数据规模之间取得平衡。

Invoking Reasoning Ability via SFT

在特定领域语料上进行继续预训练可以为模型注入领域知识,但会削弱其指令跟随能力。在这一阶段,我们的目标有两个:

  1. 恢复模型的指令跟随能力;
  2. 激发针对病理诊断的推理行为。

与通用领域数据不同,病理学诊断具有高度结构化的特征——现实中的病理学家在解读组织学图像时通常遵循系统化的流程。因此,一个能够在数据粒度与诊断特异性之间取得平衡的高效数据生成策略对该阶段训练至关重要。

我们首先将教材中提取的图–注对划分到不同的病理学子领域。随后,人工标注一小部分数据,用作训练 EfficientNet 分类器的监督信号。在未标注数据上进行批量推理的结果经过人工检查与修正后,迭代地加入训练集,从而逐步提升分类器性能。在最初识别的 10 个子领域中,我们选择了数据量最大、病理相关性最高的 5 个子领域作为 SFT 候选:组织病理学宏观检查免疫组化(IHC)细胞学FISH。然而,五个子领域仍不足以满足数据多样性的需求。为了解决这一问题,我们受到 [51] 的启发,在每个子领域内基于图像与文本联合嵌入进行三类 K-means 聚类。有趣的是,我们在聚类结果中观察到了一致的难度区分,据此我们设计了三种层级的链式思维(CoT)推理:简单、中等和困难。最后,我们将 15 种不同的 CoT 与 4 类下游任务(MCQ、详细描述、复杂推理、多轮对话)组合,最终得到 60 种提示模板用于 SFT 数据生成。

我们选择 DeepSeek-R1 作为 SFT 数据生成模型,主要有以下两个原因。首先,现有的 VLM 并未针对病理学领域进行适配,它们在病理图像理解上的表现并不理想。在我们的实验中,即使为 VLM 提供图像–图注–CoT 三元提示,其效果也不如仅基于图注结合强大的文本模型。其次,作为先进的推理模型,DeepSeek-R1 在多步思维和长上下文理解方面展现出强大能力,这对于处理我们篇幅较长、结构复杂的 CoT 风格提示至关重要。然而,DeepSeek-R1 也存在一些固有缺陷,例如病理术语中的语言混杂以及重复生成。为减轻这些噪声,我们引入了质控环节,包括基于规则的过滤和选择性人工核查。最终清洗后的数据集包含 50 万条样本。

Invoking Reasoning Ability via SFT 的核心逻辑是:

  1. 目标:恢复指令跟随,注入病理学结构化推理能力。
  2. 数据生成策略:子领域划分 + 难度聚类 + 多任务组合,形成 60 种提示模板
  3. 生成模型与质控:DeepSeek-R1 负责生成,配合规则过滤和人工核查,最终得到 50 万条高质量 SFT 数据

Reinforcement Learning

在强化学习数据生成方面,我们通过从 SFT 数据中选取不重叠的子集,构建了一个诊断导向的多选题(MCQ)数据集。为了确保数据多样性,我们基于子领域分布进行比例分层抽样。对于两个可以进一步按组织系统分类的最大子领域(即组织病理学和宏观检查),我们进一步细分并在各自子类中进行比例抽样。这些样本与诊断信息配对,用于生成诊断导向的 MCQ。

RL 诊断导向 MCQ 数据集的构建流程

  1. 数据规模与构成
    • 总计 10,000 道多选题(MCQ),每题 6 个选项(而不是常见的 4 个),目的是提高难度、降低随机猜对率,让 RL 的奖励信号更具区分性
  2. 数据选择与过滤
    • 诊断聚焦:为了避免模型依赖检索或上下文提示,而不是图像和诊断本身,RL 数据集中去除了 内嵌参考信息
    • 丰富性:每个子领域选取 caption 最长的样本,以保证题干包含更多临床相关信息
  3. 组织学子领域(H&E)的处理
    • 首先按照 15 个组织系统类别对 H&E 样本进行分类。
    • 从原始语料中按分布比例抽取 6,051 条,再经过病理学家复核,筛选出 5,000 条高质量样本,确保多样性和诊断相关性
  4. 宏观病理子领域(Gross)的处理
    • 同样基于 15 个宏观系统类别进行划分。
    • 最终按比例缩减到 1,000 条,同时保持原始类别分布。
    • 具体分布示例:骨/软组织 (124)、胃肠道 (128)、心血管 (97)、皮肤附属器 (95)、泌尿/男性生殖 (94)、女性生殖道 (91)、中枢和周围神经系统 (73)、呼吸系统 (73)、肝胆胰 (56)、头颈部 (39)、内分泌 (38)、眼耳鼻 (27)、造血与淋巴 (26)、乳腺 (22)、牙颌面 (17)
  5. 其他三个子领域(Cytology, IHC, FISH)
    • 选取 caption 最长的样本;
    • 进行质控以保证诊断相关性与多样性

在每次训练迭代中,GRPO 和 DAPO 从旧策略 π o l d π_{old} πold 中采样 G G G 个候选输出 o i {o_i} oi。然后,它们分别最大化以下目标并优化模型 π θ π_{\theta} πθ

J G R P O ( θ ) = E v ∼ P ( V ) , o i ∼ π old [ 1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ ( min ⁡ ( r i , t A i , t , clip ( r i , t , 1 − ϵ , 1 + ϵ ) A i , t ) − β D K L ( π θ ∥ π ref ) ) ] J_{GRPO}(\theta) = \mathbb{E}{v \sim P(V), {o_i} \sim \pi\text{old}} \Bigg[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \Big( \min(r_{i,t} A_{i,t}, \text{clip}(r_{i,t}, 1-\epsilon, 1+\epsilon) A_{i,t}) - \beta D_{KL}(\pi_\theta \| \pi_\text{ref}) \Big) \Bigg] JGRPO(θ)=EvP(V),oiπold[G1i=1Goi1t=1oi(min(ri,tAi,t,clip(ri,t,1ϵ,1+ϵ)Ai,t)βDKL(πθπref))]

J D A P O ( θ ) = E v ∼ P ( V ) , o i ∼ π old [ 1 ∑ i ∣ o i ∣ ∑ i = 1 G ∑ t = 1 ∣ o i ∣ min ⁡ ( r i , t A i , t , clip ( r i , t , 1 − ϵ l o w , 1 + ϵ h i g h ) A i , t ) ] J_{DAPO}(\theta) = \mathbb{E}{v \sim P(V), {o_i} \sim \pi\text{old}} \Bigg[ \frac{1}{\sum_i |o_i|} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \min(r_{i,t} A_{i,t}, \text{clip}(r_{i,t}, 1-\epsilon_{low}, 1+\epsilon_{high}) A_{i,t}) \Bigg] JDAPO(θ)=EvP(V),oiπold[ioi1i=1Gt=1oimin(ri,tAi,t,clip(ri,t,1ϵlow,1+ϵhigh)Ai,t)]

满足约束条件: 0 < ∣ { o i ∣ i s _ e q u i v a l e n t ( a , o i ) } ∣ < G 0 < | \{o_i \mid is\_equivalent(a, o_i)\} | < G 0<{oiis_equivalent(a,oi)}<G

这里展示了 GRPO 和 DAPO 的优化目标

  • GRPO:核心思想是“群体相对优势”,即让超过群体平均水平的输出获得更大优化权重,同时引入 KL 正则以避免偏离参考策略。
  • DAPO:在 GRPO 基础上引入 非对称剪裁区间 ( ε l o w , ε h i g h ε_{low}, ε_{high} εlow,εhigh)动态采样机制,提升训练稳定性与效率。
  • 约束条件 确保模型不会在某一组中全部输出等价答案,避免“塌缩”现象。

我们设计奖励函数以引导模型学习结构化且准确的回答。

  • 格式奖励(Format Reward):

    我们要求模型在中间推理步骤中使用 …,在最终答案中使用 …。如果两个标签对各出现且仅出现一次,且标签外没有多余内容,则奖励得分为 1;否则为 0 。

  • 准确率奖励(Accuracy Reward):

    使用正则表达式从 … 标签中提取最终答案,并要求严格匹配预定义集合 {A, B, C, D, E, F} 中的某个选项。如果与真实标签一致,得分为 1,否则为 0 。

  • 长度惩罚(Length-Aware Penalty):

    我们实现了一种类似 DAPO 原始工作中的“软超长惩罚”,用于惩罚过长的回答,以避免模型生成冗余内容 。

在 GRPO 中:

R G R P O ( a i ) = { 0.1 ⋅ R f m t ( a i ) + 0.9 ⋅ R a c c ( a i ) , 若  R f m t = 1 ∧ R a c c = 1 0 , 否则 R_{GRPO}(a_i) = \begin{cases} 0.1 \cdot R_{fmt}(a_i) + 0.9 \cdot R_{acc}(a_i), & \text{若 } R_{fmt}=1 \land R_{acc}=1 \\ 0, & \text{否则} \end{cases} RGRPO(ai)={0.1Rfmt(ai)+0.9Racc(ai),0, Rfmt=1Racc=1否则

其中 R f m t R_{fmt} Rfmt 表示格式奖励, R a c c R_{acc} Racc 表示准确率奖励 。

在 DAPO 中:

R D A P O ( a i ) = { 0.5 ⋅ R a c c ( a i ) + 0.5 ⋅ R l e n ( a i ) , 若  R a c c = 1 ∧ R l e n = 1 − 1 , 否则 R_{DAPO}(a_i) = \begin{cases} 0.5 \cdot R_{acc}(a_i) + 0.5 \cdot R_{len}(a_i), & \text{若 } R_{acc}=1 \land R_{len}=1 \\ -1, & \text{否则} \end{cases} RDAPO(ai)={0.5Racc(ai)+0.5Rlen(ai),1, Racc=1Rlen=1否则

其中 R l e n R_{len} Rlen 表示长度惩罚

奖励函数设计的核心思想是 多维度约束 + 强化学习信号融合

  1. 结构化输出(Format Reward): 确保模型不仅给出正确答案,还能以 可解释、规范化的格式 表达推理过程 → 便于后续审阅与临床应用。
  2. 准确性(Accuracy Reward): 直接对应 MCQ 答案的正确性,保证诊断推理结果符合真实标签。
  3. 冗余控制(Length Penalty): 避免 RL 下模型出现“啰嗦/灌水”式输出,强化高效表达。
  4. 组合策略:
    • GRPO 更注重准确性(0.9 权重),辅以格式奖励,保证模型在群体内竞争时保持清晰与正确。
    • DAPO 则兼顾准确性与长度(各 0.5 权重),并对错误答案直接给负奖励(-1),加强训练信号的区分度。

Experiment

请添加图片描述
请添加图片描述


总结

这篇工作提出了 Patho-R1,首个结合大规模教材级病理数据与强化学习的多模态推理模型。作者首先构建了覆盖五大病理子领域、跨越不同难度层级的高质量图文与推理链数据集,并开发 Patho-CLIP 以解决病理学领域中视觉–文本对齐不足的问题;随后通过三阶段训练(继续预训练 → 监督微调 → 强化学习),利用 GRPO 与 DAPO 策略显著提升了模型在诊断问答、选择题与跨模态检索中的准确性与可解释性,全面超越现有基线。其核心可借鉴之处在于:(1)数据层面,充分利用教材与专家知识,结合自动化管线生成推理链数据,兼顾规模与权威性;(2)方法层面,通过逐步式训练策略(CPT-SFT-RL)实现知识注入、推理习得与策略优化的递进;(3)奖励设计,在强化学习中引入格式约束、准确率信号与长度惩罚,保证输出既正确又规范。这些思路不仅适用于病理学,还可推广到其他需要 细粒度知识、结构化推理与临床可解释性 的医学影像及跨模态任务。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐