CVPR 2025｜医工交叉文章速览

下面是从CVPR 2025中挑选的另外五篇与医学相关的文章（之前已经分享过五篇，可以在主页查看），每篇文章的分享大致分为核心梗概、方法、结果三个部分。验证效果：在 MIMIC-CXR 数据集上对 11 个主流报告生成模型（如 CheXagent、GPT4V、MAIRA-2）验证，结果显著。在 PCLT20K 及公开 STS 数据集（2409 对 PET-CT 图像）上验证，性能显著优于 SOTA

柳叶方舟

639人浏览 · 2026-02-25 14:21:52

柳叶方舟 · 2026-02-25 14:21:52 发布

下面是从CVPR 2025中挑选的另外五篇与医学相关的文章（之前已经分享过五篇，可以在主页查看），每篇文章的分享大致分为核心梗概、方法、结果三个部分。

第一篇｜FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models

项目地址：
https://github.com/rajpurkarlab/FactCheXcker

核心梗概

本文聚焦胸部 X 光报告生成中的 “测量幻觉” 缓解任务，针对现有医学视觉语言模型在生成定量测量信息（如气管插管到隆突距离）时易出现错误、影响临床安全（如气管插管位置不当可能导致缺氧、气胸），且缺乏针对性去幻觉框架的问题，开展以下工作：

提出方法

提出 FactCheXcker 模块化框架，无需重训原报告生成模型，通过 “查询 - 代码 - 更新” 范式修正测量幻觉，核心含三模块：

查询生成器（Query Generator）: 用 GPT-4o mini 解析原始报告，提取需验证的测量查询（如 “测量气管插管尖端与隆突的距离”“判断气管插管位置是否正确”），明确待修正的定量信息；
代码生成器（Code Generator）： 基于领域专属 API 生成可执行 Python 代码，调用专业工具模块解决查询：
- 存在检测：用微调的 RESNET-50 + 模型（ACC 0.94、AUC 0.97）判断 ETT 是否存在；
- 定位模块：用微调的 CarinaNet+（MAE 0.94cm）输出 ETT 尖端与隆突的坐标；
- 计算模块：结合图像像素间距 metadata 将像素距离转换为物理距离（cm），支持距离、直径等定量计算；
报告更新器（Report Updater）： 用工具模块输出的精准测量值更新原始报告，结合临床指南（如 ETT 理想位置为 3-7cm）判断放置是否合规，错误则提示调整（如 “气管插管位置过低，需重新定位”），同时保留原报告非测量内容的完整性。

验证效果

验证效果：在 MIMIC-CXR 数据集上对 11 个主流报告生成模型（如 CheXagent、GPT4V、MAIRA-2）验证，结果显著。

测量精度： 平均降低 135% 的 MAE（测量误差），复合指标（MAE/F1）平均提升 186%，GPT4V 的 ETT 测量失败率（误差 > 1.5cm）从 77.5% 降至 22.5%；
放置判断： ETT 位置判断精度从 0.84 提升至 0.94，LLM-CXR 模型精度从 0.74 升至 0.97；
泛化性： 对所有 11 个模型均有提升，且不损害原报告的可读性与非测量内容质量。

第二篇｜Cross-Modal Interactive Perception Network with Mamba for Lung Tumor Segmentation in PET-CT Images

项目地址：
https://github.com/mj129/CIPA

核心梗概

本文聚焦PET-CT 图像肺肿瘤分割任务，针对该领域 “数据集规模小且私有（现有最大公开数据集仅 6985 对图像）”“多模态融合效果差（PET 代谢信息分辨率低、CT 解剖信息对比度低，二者互补性未充分利用）”“Mamba 模型难以捕捉多模态区域关联” 的问题，开展以下工作：

构建基准

首次发布大规模公开 PET-CT 肺肿瘤分割数据集 PCLT20K。

规模: 含 21,930 对 PET-CT 图像，覆盖 605 名患者，是现有最大公开肺肿瘤 PET-CT 数据集（远超此前最大的 6985 对）；
标注： 采用三阶段医生标注流程（临床初诊报告→逐切片像素级标注→跨医生审核修正），确保肿瘤标注精度；
预处理： CT 图像 HU 值裁剪后并归一化，PET 图像转换为标准化摄取值（SUV）后缩放，统一分辨率为 512×512；
分布： 8:2 患者级划分训练集（17,416 对）与测试集（4,514 对），涵盖大小 / 位置多样的肿瘤（最小 11 像素、最大 5830 像素，72.73% 肿瘤切片数 < 40），贴合临床真实场景。

提出方法

提出基于 Mamba 的跨模态交互感知网络 CIPA，核心含双模块与端到端架构。

整体架构: 双分支 encoder（PET/CT 并行，共享权重）提取多尺度特征，每阶段嵌入通道校正与跨模态交互模块，解码端用通道感知视觉状态空间（CVSS）块上采样，最终输出肿瘤分割掩码；
通道校正模块（CRM）：
- 拼接 PET/CT 通道特征并转置为通道维度优先的序列，通过 1D 选择性 SSM（Mamba 核心）学习通道间相关性；
- 生成通道权重（反映模态间特征重要性），对 PET/CT 原始特征进行通道加权，过滤模态专属噪声（如 PET 的低分辨率噪声、CT 的低对比度干扰）；
动态跨模态交互模块（DCIM）：
- 拆分 PET 为区域令牌（捕捉病灶位置信息）、CT 为局部令牌（捕捉解剖结构细节）；
- 区域 Mamba 块处理 PET 令牌以学习全局位置，局部 Mamba 块处理 CT 令牌以建模局部依赖；
- 将同区域的 PET 区域令牌与 CT 局部令牌逐点相加，实现 PET 位置信息引导 CT 结构分割，解决 Mamba 2D 扫描难以关联多模态区域的问题。

验证效果

在 PCLT20K 及公开 STS 数据集（2409 对 PET-CT 图像）上验证，性能显著优于 SOTA 方法。

定量性能：
- PCLT20K 上：IoU 达 63.81%（比第二名 Sigma 高 0.55%）、F1 77.91%、Acc 89.01%、HD95 17.74（最小距离误差），参数 54.57M（低于 Swin-T 版本的 121.22M）；
- STS 数据集上：IoU 60.33%（比第二名 GeminiFusion 高 1.31%）、F1 75.26%、Acc 86.03%，泛化性突出；
定性效果： 能精准分割肿瘤边缘，假阳性（如误判正常肺组织）与假阴性（如漏检小肿瘤）更少，示例中肿瘤完整性与边缘细节优于 TokenFusion、CMNeXt 等方法。

第三篇｜FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked Autoencoders

项目地址：
https://gbc-iitd.github.io/focusmae.html

核心梗概

本文聚焦超声视频胆囊癌（GBC）检测任务，针对现有基于超声图像的 GBC 检测泛化性差（单帧信息不足、图像质量低、视角不固定）、视频级检测空白，且传统掩码自编码器（MAE）随机掩码侧重冗余背景、难以学习恶性区域特征的问题，开展以下工作：

构建基准

首次构建大规模超声视频 GBC 检测数据集。

数据来源: 整合公开 GBUSV 数据集（64 个视频，32 良性 / 32 恶性）与新增 27 个恶性超声视频，共 91 个视频（59 恶性 / 32 良性）、21955 帧，覆盖 41 名恶性患者与 32 名良性患者；
标注流程: 采用 “活检报告标注 + 双放射科医生逐帧边界框标注（覆盖胆囊及邻近肝组织）+ 跨医生审核修正” 三阶段流程，确保标注精度；
验证方式: 采用患者级 5 折交叉验证（避免同一患者数据跨训练 / 验证集），为视频级 GBC 检测提供首个标准化评估基准。

提出方法

提出 FocusMAE 框架，核心是 “聚焦高信息区域的掩码策略”，解决传统 MAE 随机掩码的缺陷，关键模块如下。

视频预处理与令牌生成：
- 子采样：以步长 4 抽取视频帧（减少 temporal 冗余），划分 16 帧为 1 个剪辑，随机采样 4 个剪辑用于预训练；
- 令牌生成：用 3D 卷积（核 2×3×16×16）将视频转为时空令牌（含 3D 位置编码），单个 16 帧视频生成 1568 个令牌（维度 384）。
目标定位先验生成：
- 用 Faster R-CNN 作为区域提议网络（RPN），在公开 GBCU 数据集（含胆囊 ROI 标注）上训练，生成胆囊候选区域（降低置信阈值以覆盖更多潜在恶性区域）；
- 取剪辑内所有帧候选区域的并集，作为高信息区域先验。
聚焦掩码采样：
- 基础概率生成：通过多头注意力（MHA）+ 线性层 + Softmax 生成令牌基础掩码概率；
- 概率增强：候选区域内的令牌掩码概率额外增加 π（0<π<0.25），引导掩码侧重高信息区域；
- 令牌选择：按增强后概率采样掩码令牌（掩码率 95% 最优），仅将可见令牌输入编码器。
编码器与解码器：
- 编码器：ViT-S（12 层，6 头注意力，维度 384），仅处理可见令牌，降低计算成本；
- 解码器：10 层 ViT（较传统 MAE 更深，提升重构精度），拼接可见令牌与可学习掩码令牌，通过 MSE 损失重构原始令牌。
双损失训练：
- 重构损失（L_recon）：掩码令牌预测值与真实 RGB 值的 MSE 损失，确保高信息区域重构精度；
- 采样损失（L_sample）：最大化高信息区域的重构误差（借鉴强化学习 REINFORCE 算法），引导模型优先掩码高价值令牌。

验证效果

在自建超声视频数据集及公开 COVID-CT-MD 数据集上验证，性能显著优于 SOTA 方法。

超声视频 GBC 检测：
- 定量：准确率 96.4%（图像 SOTA 的 GBCNet/RadFormer 为 84%，视频 SOTA 的 AdaMAE 为 94.7%），灵敏度 100%（无漏诊，满足临床需求），特异性 91.0%；
- 定性：注意力可视化显示 FocusMAE 优先关注胆囊边界、恶性区域，而 VideoMAE 注意力分散于背景。
泛化性验证（COVID-CT 检测）： 在 COVID-CT-MD 数据集（CT 切片视为 “帧”，类比视频）上，准确率 88.5%（VideoMAE 为 85.2%，图像 SOTA 的 ViT 为 77.0%），证明方法可跨模态（超声→CT）、跨疾病（GBC→COVID）迁移。

第四篇｜MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training for X-ray Diagnosis

项目地址：
https://chaoyi-wu.github.io/MedKLIP/

核心梗概

本文聚焦X 射线诊断的医学视觉语言预训练（Med-VLP）任务，针对现有医学 VLP 方法 “未利用领域知识、依赖原始报告导致监督信号冗余、零 - shot 泛化性差（尤其对 unseen 疾病）” 的问题，开展以下工作：

提出方法

提出 MedKLIP 框架，核心是 “医学知识增强的视觉 - 语言对齐”，含三关键模块。

三元组提取模块：
- 用医学命名实体识别工具 RadGraph 从原始报告中提取 {实体、位置（如 “右肺下叶”）、存在（True/False/Uncertain）} 三元组；
- 摒弃报告中的语法冗余（如连接词、描述性语句），保留核心医学信息，强化监督信号的针对性。
知识增强三元组编码模块： 从全局形态视角建模，减少局部密度变化、造影剂干扰导致的假阳性；
- 实体翻译：通过 UMLS、Wikipedia 等知识库，将专业实体（如 “Pneumonia”）转为详细描述（如 “肺部感染，表现为致密影和胸腔积液”），建立疾病间隐含关联；
- 编码方式：用 ClinicalBERT 分别编码实体描述（生成维度 d 的向量 e）与位置提示（如 “位于 {右肺下叶}”，生成维度 d’ 的向量 p），“存在” 标签用 {1,0,-1} 表示；
- 最终每个三元组编码为 {e, p, l}，实现医学知识的结构化嵌入。
视觉 - 语言融合模块：
- 视觉编码：用 ResNet-50 提取 X 射线图像特征 V（维度 h×w×d）；
- 实体查询集：选取训练集中高频实体的编码形成查询集 Q，作为 Transformer 解码器的 Query；
- 对齐与预测：以 V 为 Key/Value，Q 为 Query，通过多轮注意力计算输出。

验证效果

在zero-shot 与微调场景下，MedKLIP 均优于现有医学 VLP 方法（ConVIRT、BioViL、CheXzero 等）。

zero-shot 分类： SIIM-ACR 气胸 AUC 达 0.89（BioViL 为 0.71），ChestX-ray14 平均 AUC 达 0.77（CheXzero 为 0.73）；用 “COVID-19 描述” 替代疾病名时，AUC 从 0.66（直接用疾病名）提升至 0.74，ACC 从 0.59 提升至 0.70；
zero-shot 定位： RSNA 肺炎指向游戏分数达 0.87（BioViL 为 0.83），检测精度达 0.64（BioViL 为 0.50）；COVID-19 定位的 Dice 达 0.23（BioViL 为 0.14），实现对 unseen 疾病的视觉证据定位；
微调场景：
- 少数据（1%）：RSNA 肺炎 AUC 达 0.87（ConVIRT 为 0.84），SIIM-ACR 气胸 AUC 达 0.85（GLoRIA 为 0.74）；
- 分割任务：RSNA 肺炎 Dice 达 0.76（BioViL 为 0.72），COVID-19 分割 Dice 达 0.44（ConVIRT 为 0.37）；
- 细分类（肺水肿分级）：平均 AUC 达 0.79（GLoRIA 为 0.78），各级别 F1 均优于基线。

第五篇｜auSSL: Causality-inspired Semi-supervised Learning for Medical Image Segmentation

核心梗概

本文聚焦医学图像分割的半监督学习（SSL）任务，针对该领域 “缺乏因果理论基础（ICM 原则认为无标签数据无法提升分割模型 P (Y|X)，与实际 SSL 效果矛盾）”“现有 SSL 方法（如 Mean Teacher、自训练）网络依赖性高、性能瓶颈明显”“算法独立性无法量化与优化” 的问题，开展以下工作：

提出方法

提出 CauSSL（因果启发的半监督学习框架），核心含三关键设计。

因果图重构: 引入中间变量，补全传统因果图的缺失环节，从因果视角解释 SSL 有效性（将任务转化为混淆学习场景，突破 ICM 原则限制）。
网络独立性量化： 针对卷积网络设计可计算的 “算法独立性” 代理指标。
- 将卷积层权重视为矩阵（每行对应一个卷积核的特征模板）；
- 定义网络独立性损失 L：计算两个网络同层卷积核矩阵的线性相关性（某网络卷积核能否被另一网络卷积核线性表示），L 越低则独立性越强；
- 全局独立性为所有卷积层 L 的均值，量化网络间的互补性。
Min-Max 优化框架： 端到端增强网络独立性，分两步迭代训练。
- Max 阶段：固定网络权重，更新线性系数矩阵G，最大化 L 以精准估计当前网络依赖性；
- Min 阶段：固定G，最小化总损失（监督损失 + 无监督损失 + 独立性损失），降低网络依赖性。

验证效果

在 3 个医学分割数据集（2D/3D 架构）上验证，性能优于现有 SOTA 方法。

数据集与场景： ACDC（心脏 MRI 分割）、Pancreas-CT（胰腺 CT 分割）、BraTS’19（脑肿瘤 3D 分割），覆盖不同标签比例（10%/20% 标签、6/12 个标注体积）。
定量提升：
- ACDC（10% 标签）：MCCauSSL 的 DSC 达 86.80%，比原 MC-Net + 提升 0.7%，JC 提升 0.87%，95HD 降低 0.31 个体素；
- Pancreas-CT（6 个标注体积）：MCCauSSL 的 DSC 达 72.89%，比原 MC-Net + 提升 4.71%，超 SOTA 方法 FUSSNet（72.55%）；
- BraTS’19（10% 标签）：CPSCauSSL 的 DSC 达 83.56%，比原 CPS 提升 1%，95HD 降低 2.5 个体素。