CVPR 2025|医工交叉文章速览
下面是从CVPR 2025中挑选的另外五篇与医学相关的文章(之前已经分享过五篇,可以在主页查看),每篇文章的分享大致分为核心梗概、方法、结果三个部分。验证效果:在 MIMIC-CXR 数据集上对 11 个主流报告生成模型(如 CheXagent、GPT4V、MAIRA-2)验证,结果显著。在 PCLT20K 及公开 STS 数据集(2409 对 PET-CT 图像)上验证,性能显著优于 SOTA
下面是从CVPR 2025中挑选的另外五篇与医学相关的文章(之前已经分享过五篇,可以在主页查看),每篇文章的分享大致分为核心梗概、方法、结果三个部分。
第一篇 |FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models
项目地址:
https://github.com/rajpurkarlab/FactCheXcker
核心梗概
本文聚焦胸部 X 光报告生成中的 “测量幻觉” 缓解任务,针对现有医学视觉语言模型在生成定量测量信息(如气管插管到隆突距离)时易出现错误、影响临床安全(如气管插管位置不当可能导致缺氧、气胸),且缺乏针对性去幻觉框架的问题,开展以下工作:
提出方法
提出 FactCheXcker 模块化框架,无需重训原报告生成模型,通过 “查询 - 代码 - 更新” 范式修正测量幻觉,核心含三模块:
- 查询生成器(Query Generator): 用 GPT-4o mini 解析原始报告,提取需验证的测量查询(如 “测量气管插管尖端与隆突的距离”“判断气管插管位置是否正确”),明确待修正的定量信息;
- 代码生成器(Code Generator): 基于领域专属 API 生成可执行 Python 代码,调用专业工具模块解决查询:
- 存在检测:用微调的 RESNET-50 + 模型(ACC 0.94、AUC 0.97)判断 ETT 是否存在;
- 定位模块:用微调的 CarinaNet+(MAE 0.94cm)输出 ETT 尖端与隆突的坐标;
- 计算模块:结合图像像素间距 metadata 将像素距离转换为物理距离(cm),支持距离、直径等定量计算;
- 报告更新器(Report Updater): 用工具模块输出的精准测量值更新原始报告,结合临床指南(如 ETT 理想位置为 3-7cm)判断放置是否合规,错误则提示调整(如 “气管插管位置过低,需重新定位”),同时保留原报告非测量内容的完整性。

验证效果
验证效果:在 MIMIC-CXR 数据集上对 11 个主流报告生成模型(如 CheXagent、GPT4V、MAIRA-2)验证,结果显著。
- 测量精度: 平均降低 135% 的 MAE(测量误差),复合指标(MAE/F1)平均提升 186%,GPT4V 的 ETT 测量失败率(误差 > 1.5cm)从 77.5% 降至 22.5%;
- 放置判断: ETT 位置判断精度从 0.84 提升至 0.94,LLM-CXR 模型精度从 0.74 升至 0.97;
- 泛化性: 对所有 11 个模型均有提升,且不损害原报告的可读性与非测量内容质量。
第二篇|Cross-Modal Interactive Perception Network with Mamba for Lung Tumor Segmentation in PET-CT Images
项目地址:
https://github.com/mj129/CIPA
核心梗概
本文聚焦PET-CT 图像肺肿瘤分割任务,针对该领域 “数据集规模小且私有(现有最大公开数据集仅 6985 对图像)”“多模态融合效果差(PET 代谢信息分辨率低、CT 解剖信息对比度低,二者互补性未充分利用)”“Mamba 模型难以捕捉多模态区域关联” 的问题,开展以下工作:
构建基准
首次发布大规模公开 PET-CT 肺肿瘤分割数据集 PCLT20K。
- 规模: 含 21,930 对 PET-CT 图像,覆盖 605 名患者,是现有最大公开肺肿瘤 PET-CT 数据集(远超此前最大的 6985 对);
- 标注: 采用三阶段医生标注流程(临床初诊报告→逐切片像素级标注→跨医生审核修正),确保肿瘤标注精度;
- 预处理: CT 图像 HU 值裁剪后并归一化,PET 图像转换为标准化摄取值(SUV)后缩放,统一分辨率为 512×512;
- 分布: 8:2 患者级划分训练集(17,416 对)与测试集(4,514 对),涵盖大小 / 位置多样的肿瘤(最小 11 像素、最大 5830 像素,72.73% 肿瘤切片数 < 40),贴合临床真实场景。
提出方法
提出基于 Mamba 的跨模态交互感知网络 CIPA,核心含双模块与端到端架构。
- 整体架构: 双分支 encoder(PET/CT 并行,共享权重)提取多尺度特征,每阶段嵌入通道校正与跨模态交互模块,解码端用通道感知视觉状态空间(CVSS)块上采样,最终输出肿瘤分割掩码;
- 通道校正模块(CRM):
- 拼接 PET/CT 通道特征并转置为通道维度优先的序列,通过 1D 选择性 SSM(Mamba 核心)学习通道间相关性;
- 生成通道权重(反映模态间特征重要性),对 PET/CT 原始特征进行通道加权,过滤模态专属噪声(如 PET 的低分辨率噪声、CT 的低对比度干扰);
- 动态跨模态交互模块(DCIM):
- 拆分 PET 为区域令牌(捕捉病灶位置信息)、CT 为局部令牌(捕捉解剖结构细节);
- 区域 Mamba 块处理 PET 令牌以学习全局位置,局部 Mamba 块处理 CT 令牌以建模局部依赖;
- 将同区域的 PET 区域令牌与 CT 局部令牌逐点相加,实现 PET 位置信息引导 CT 结构分割,解决 Mamba 2D 扫描难以关联多模态区域的问题。

验证效果
在 PCLT20K 及公开 STS 数据集(2409 对 PET-CT 图像)上验证,性能显著优于 SOTA 方法。
- 定量性能:
- PCLT20K 上:IoU 达 63.81%(比第二名 Sigma 高 0.55%)、F1 77.91%、Acc 89.01%、HD95 17.74(最小距离误差),参数 54.57M(低于 Swin-T 版本的 121.22M);
- STS 数据集上:IoU 60.33%(比第二名 GeminiFusion 高 1.31%)、F1 75.26%、Acc 86.03%,泛化性突出;
- 定性效果: 能精准分割肿瘤边缘,假阳性(如误判正常肺组织)与假阴性(如漏检小肿瘤)更少,示例中肿瘤完整性与边缘细节优于 TokenFusion、CMNeXt 等方法。
第三篇|FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked Autoencoders
项目地址:
https://gbc-iitd.github.io/focusmae.html
核心梗概
本文聚焦超声视频胆囊癌(GBC)检测任务,针对现有基于超声图像的 GBC 检测泛化性差(单帧信息不足、图像质量低、视角不固定)、视频级检测空白,且传统掩码自编码器(MAE)随机掩码侧重冗余背景、难以学习恶性区域特征的问题,开展以下工作:
构建基准
首次构建大规模超声视频 GBC 检测数据集。
- 数据来源: 整合公开 GBUSV 数据集(64 个视频,32 良性 / 32 恶性)与新增 27 个恶性超声视频,共 91 个视频(59 恶性 / 32 良性)、21955 帧,覆盖 41 名恶性患者与 32 名良性患者;
- 标注流程: 采用 “活检报告标注 + 双放射科医生逐帧边界框标注(覆盖胆囊及邻近肝组织)+ 跨医生审核修正” 三阶段流程,确保标注精度;
- 验证方式: 采用患者级 5 折交叉验证(避免同一患者数据跨训练 / 验证集),为视频级 GBC 检测提供首个标准化评估基准。
提出方法
提出 FocusMAE 框架,核心是 “聚焦高信息区域的掩码策略”,解决传统 MAE 随机掩码的缺陷,关键模块如下。
- 视频预处理与令牌生成:
- 子采样:以步长 4 抽取视频帧(减少 temporal 冗余),划分 16 帧为 1 个剪辑,随机采样 4 个剪辑用于预训练;
- 令牌生成:用 3D 卷积(核 2×3×16×16)将视频转为时空令牌(含 3D 位置编码),单个 16 帧视频生成 1568 个令牌(维度 384)。
- 目标定位先验生成:
- 用 Faster R-CNN 作为区域提议网络(RPN),在公开 GBCU 数据集(含胆囊 ROI 标注)上训练,生成胆囊候选区域(降低置信阈值以覆盖更多潜在恶性区域);
- 取剪辑内所有帧候选区域的并集,作为高信息区域先验。
- 聚焦掩码采样:
- 基础概率生成:通过多头注意力(MHA)+ 线性层 + Softmax 生成令牌基础掩码概率;
- 概率增强:候选区域内的令牌掩码概率额外增加 π(0<π<0.25),引导掩码侧重高信息区域;
- 令牌选择:按增强后概率采样掩码令牌(掩码率 95% 最优),仅将可见令牌输入编码器。
- 编码器与解码器:
- 编码器:ViT-S(12 层,6 头注意力,维度 384),仅处理可见令牌,降低计算成本;
- 解码器:10 层 ViT(较传统 MAE 更深,提升重构精度),拼接可见令牌与可学习掩码令牌,通过 MSE 损失重构原始令牌。
- 双损失训练:
- 重构损失(L_recon):掩码令牌预测值与真实 RGB 值的 MSE 损失,确保高信息区域重构精度;
- 采样损失(L_sample):最大化高信息区域的重构误差(借鉴强化学习 REINFORCE 算法),引导模型优先掩码高价值令牌。

验证效果
在自建超声视频数据集及公开 COVID-CT-MD 数据集上验证,性能显著优于 SOTA 方法。
- 超声视频 GBC 检测:
- 定量:准确率 96.4%(图像 SOTA 的 GBCNet/RadFormer 为 84%,视频 SOTA 的 AdaMAE 为 94.7%),灵敏度 100%(无漏诊,满足临床需求),特异性 91.0%;
- 定性:注意力可视化显示 FocusMAE 优先关注胆囊边界、恶性区域,而 VideoMAE 注意力分散于背景。
- 泛化性验证(COVID-CT 检测): 在 COVID-CT-MD 数据集(CT 切片视为 “帧”,类比视频)上,准确率 88.5%(VideoMAE 为 85.2%,图像 SOTA 的 ViT 为 77.0%),证明方法可跨模态(超声→CT)、跨疾病(GBC→COVID)迁移。
第四篇|MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training for X-ray Diagnosis
项目地址:
https://chaoyi-wu.github.io/MedKLIP/
核心梗概
本文聚焦X 射线诊断的医学视觉语言预训练(Med-VLP)任务,针对现有医学 VLP 方法 “未利用领域知识、依赖原始报告导致监督信号冗余、零 - shot 泛化性差(尤其对 unseen 疾病)” 的问题,开展以下工作:
提出方法
提出 MedKLIP 框架,核心是 “医学知识增强的视觉 - 语言对齐”,含三关键模块。
- 三元组提取模块:
- 用医学命名实体识别工具 RadGraph 从原始报告中提取 {实体、位置(如 “右肺下叶”)、存在(True/False/Uncertain)} 三元组;
- 摒弃报告中的语法冗余(如连接词、描述性语句),保留核心医学信息,强化监督信号的针对性。

- 知识增强三元组编码模块: 从全局形态视角建模,减少局部密度变化、造影剂干扰导致的假阳性;
- 实体翻译:通过 UMLS、Wikipedia 等知识库,将专业实体(如 “Pneumonia”)转为详细描述(如 “肺部感染,表现为致密影和胸腔积液”),建立疾病间隐含关联;
- 编码方式:用 ClinicalBERT 分别编码实体描述(生成维度 d 的向量 e)与位置提示(如 “位于 {右肺下叶}”,生成维度 d’ 的向量 p),“存在” 标签用 {1,0,-1} 表示;
- 最终每个三元组编码为 {e, p, l},实现医学知识的结构化嵌入。

- 视觉 - 语言融合模块:
- 视觉编码:用 ResNet-50 提取 X 射线图像特征 V(维度 h×w×d);
- 实体查询集:选取训练集中高频实体的编码形成查询集 Q,作为 Transformer 解码器的 Query;
- 对齐与预测:以 V 为 Key/Value,Q 为 Query,通过多轮注意力计算输出。

验证效果
在zero-shot 与微调场景下,MedKLIP 均优于现有医学 VLP 方法(ConVIRT、BioViL、CheXzero 等)。
- zero-shot 分类: SIIM-ACR 气胸 AUC 达 0.89(BioViL 为 0.71),ChestX-ray14 平均 AUC 达 0.77(CheXzero 为 0.73);用 “COVID-19 描述” 替代疾病名时,AUC 从 0.66(直接用疾病名)提升至 0.74,ACC 从 0.59 提升至 0.70;
- zero-shot 定位: RSNA 肺炎指向游戏分数达 0.87(BioViL 为 0.83),检测精度达 0.64(BioViL 为 0.50);COVID-19 定位的 Dice 达 0.23(BioViL 为 0.14),实现对 unseen 疾病的视觉证据定位;
- 微调场景:
- 少数据(1%):RSNA 肺炎 AUC 达 0.87(ConVIRT 为 0.84),SIIM-ACR 气胸 AUC 达 0.85(GLoRIA 为 0.74);
- 分割任务:RSNA 肺炎 Dice 达 0.76(BioViL 为 0.72),COVID-19 分割 Dice 达 0.44(ConVIRT 为 0.37);
- 细分类(肺水肿分级):平均 AUC 达 0.79(GLoRIA 为 0.78),各级别 F1 均优于基线。
第五篇|auSSL: Causality-inspired Semi-supervised Learning for Medical Image Segmentation
核心梗概
本文聚焦医学图像分割的半监督学习(SSL)任务,针对该领域 “缺乏因果理论基础(ICM 原则认为无标签数据无法提升分割模型 P (Y|X),与实际 SSL 效果矛盾)”“现有 SSL 方法(如 Mean Teacher、自训练)网络依赖性高、性能瓶颈明显”“算法独立性无法量化与优化” 的问题,开展以下工作:
提出方法
提出 CauSSL(因果启发的半监督学习框架),核心含三关键设计。
- 因果图重构: 引入中间变量,补全传统因果图的缺失环节,从因果视角解释 SSL 有效性(将任务转化为混淆学习场景,突破 ICM 原则限制)。
- 网络独立性量化: 针对卷积网络设计可计算的 “算法独立性” 代理指标。
- 将卷积层权重视为矩阵(每行对应一个卷积核的特征模板);
- 定义网络独立性损失 L:计算两个网络同层卷积核矩阵的线性相关性(某网络卷积核能否被另一网络卷积核线性表示),L 越低则独立性越强;
- 全局独立性为所有卷积层 L 的均值,量化网络间的互补性。
- Min-Max 优化框架: 端到端增强网络独立性,分两步迭代训练。
- Max 阶段:固定网络权重,更新线性系数矩阵G,最大化 L 以精准估计当前网络依赖性;
- Min 阶段:固定G,最小化总损失(监督损失 + 无监督损失 + 独立性损失),降低网络依赖性。

验证效果
在 3 个医学分割数据集(2D/3D 架构)上验证,性能优于现有 SOTA 方法。
- 数据集与场景: ACDC(心脏 MRI 分割)、Pancreas-CT(胰腺 CT 分割)、BraTS’19(脑肿瘤 3D 分割),覆盖不同标签比例(10%/20% 标签、6/12 个标注体积)。
- 定量提升:
- ACDC(10% 标签):MCCauSSL 的 DSC 达 86.80%,比原 MC-Net + 提升 0.7%,JC 提升 0.87%,95HD 降低 0.31 个体素;
- Pancreas-CT(6 个标注体积):MCCauSSL 的 DSC 达 72.89%,比原 MC-Net + 提升 4.71%,超 SOTA 方法 FUSSNet(72.55%);
- BraTS’19(10% 标签):CPSCauSSL 的 DSC 达 83.56%,比原 CPS 提升 1%,95HD 降低 2.5 个体素。
更多推荐



所有评论(0)