来gongzhonghao【图灵学术计算机论文辅导】,快速拿捏更多计算机SCI/CCF发文资讯~

多模态医学图像正沿着“图像采集-质控→核心处理→特征分析→临床落地”螺旋式升级,CVPR 2025与MICCAI 2025收录量激增,3D CT/MRI与文本、EHR的跨模态对齐成为顶会爆点。

如何在3D-RAD的136K问答、HSENet的双路径空间编码、Brain-Adapter的轻量瓶颈之间快速定位可迁移创新,成为投稿胜负手。

本文结合最新进展,帮你梳理分割/配准/融合、特征融合与分类、以及临床部署三大环节的热点,助你高效设计实验:

3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks

方法:这篇文章首次推出 3D-RAD,一个面向 3D 放射科 CT 的大规模医学视觉问答数据集,通过半自动报告解析、专家校验与 GPT-4o-mini 评分过滤构建 136K 高质量问答对,并设计六类任务以开放/封闭题型全面评测模型在异常检测、影像观察、医学计算、存在判断、静态时序诊断与纵向时序诊断上的能力,同时提供 3D-RAD-T 训练子集供领域微调。

图片

创新点:

  • 首次将 3D 体积 CT 引入 Med-VQA 并支持多时序推理,突破以往 2D 切片局限。

  • 提出静态与纵向两种时序诊断任务,让模型仅凭单图或结合历史标签推断病变演变状态。

  • 构建包含 18 类疾病、34K QA 对的超大规模基准,并配套 136K 训练集显著提升现有 3D 医学视觉语言模型性能。

图片

总结:实验表明,经 3D-RAD-T 微调的模型在所有任务上显著优于零样本基线,尤其在纵向时序诊断准确率提升逾 50%,验证了数据集对 3D 医学多模态推理研究的推动作用。

HSENet: Hybrid Spatial Encoding Network for 3D Medical Vision-Language Understanding

方法:这篇文章提出HSENet,用双路径3D视觉编码器配合Spatial Packer,首次在三维CT上实现兼顾全局体积与局部解剖细节的精准医学视觉-语言理解。

图片

创新点:

  • 首创“3D+2E3”双路径视觉编码器,分别捕获宏观体积与切片增强的微观解剖特征,突破单一路径的空间感知瓶颈。

  • 设计Spatial Packer及其Voxel2Point Cross-Attention,基于质心的3D高分辨率压缩投影,在显著降低token数的同时完整保留几何细节。

  • 构建两阶段跨模态预训练框架,先以体积-报告对比学习对齐全局语义,再以2D切片引导的细粒度对比学习精炼局部特征,并引入语义一致性损失防止漂移。

图片

总结:研究者在CT-RATE与RadGenome-ChestCT等多数据集上,先利用两阶段预训练让3D ViT与2E3 ViT分别习得全局与局部表征,再经Spatial Packer将压缩后的混合视觉token送入Phi-4 LLM进行LoRA微调,在三维检索、报告生成与VQA任务上全面刷新SOTA并公开代码。

纠结选题?导师放养?投稿被拒?对论文有任何问题的同学,欢迎来gongzhonghao【图灵学术计算机论文辅导】,获取顶会顶刊前沿资讯~

BRAIN-ADAPTER: ENHANCING NEUROLOGICAL DISORDER ANALYSIS WITH ADAPTER-TUNING MULTIMODAL LARGE LANGUAGE MODELS

方法:这篇文章提出Brain-Adapter,用极轻量的瓶颈式CNN适配器把3D MRI与ADNI临床文本对齐到冻结的M3D-CLIP大模型,再经跨模态对比学习实现仅用单张A6000就能训练的三类神经退行性疾病诊断。

图片

创新点:

  • 首次将3D MRI与ADNI多源EHR文本统一构建成17K对图文数据,为神经疾病多模态研究提供新基准。

  • 设计仅更新0.1%参数的CNN残差适配器,把高维3D体素压缩成256×768 token,既保留空间细节又避免重训大模型。

  • 通过双向对比损失+线性投影微调,将新获得的脑疾病知识注入原M3D先验,实现NC/MCI/AD三分类F1提升39%。

图片

总结:作者首先从ADNI整理出含EHR文本的17K对3D MRI数据并进行多预处理;随后构建Brain-Adapter,用残差CNN把MRI体素映射到冻结M3D-CLIP的token空间,再与文本表征做双向对比对齐;训练时仅更新适配器和线性投影层,9个epoch即可在单GPU上获得显著优于3D ResNet/DenseNet的三类神经疾病诊断性能。

关注gongzhonghao【图灵学术计算机论文辅导】,快速拿捏更多计算机SCI/CCF发文资讯。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐