CVPR 2025丨小模型近期好出成果的方向:从参数压缩到部署落地,三篇论文展现顶会前沿创新方向
文章首先构建了一个包含两个并行路径的框架,用于处理多模态医学数据,其中第一路径利用专门的单模态大模型提取模态特定嵌入,并通过混合模态专家融合模块进行跨模态融合,第二路径则借助预训练的多模态小模型进行高效处理。接着,采用自适应加权策略将两个路径的预测结果进行融合,以实现最佳的诊断效果。最后,通过多目标优化协调不同学习目标,确保模型在训练过程中能够动态平衡大模型和小模型的贡献,从而在多模态医学诊断任务
关注gongzhonghao【CVPR顶会精选】
小模型,AI领域的“潜力新贵”,前景堪称蓝海市场!这个领域易出成果,但想冲击顶会顶刊,必须避开“暴力瘦身”陷阱——单纯压缩参数不可取!
今天小图给大家精选3篇CVPR有关小模型方向的论文,为大家提供CVPR最前沿的发文资讯。
论文一:Multi-modal Medical Diagnosis via Large-small Model Collaboration
方法:
文章首先构建了一个包含两个并行路径的框架,用于处理多模态医学数据,其中第一路径利用专门的单模态大模型提取模态特定嵌入,并通过混合模态专家融合模块进行跨模态融合,第二路径则借助预训练的多模态小模型进行高效处理。接着,采用自适应加权策略将两个路径的预测结果进行融合,以实现最佳的诊断效果。最后,通过多目标优化协调不同学习目标,确保模型在训练过程中能够动态平衡大模型和小模型的贡献,从而在多模态医学诊断任务中取得优异的性能。

创新点:
-
提出了首个基于大模型与小模型协作的多模态医学诊断框架AdaCoMed,有效整合了单模态大模型的强大特征提取能力和多模态小模型的自然跨模态交互能力。
-
设计了对比学习对齐机制与共享协同训练头,强化了大模型和小模型之间的特征空间对齐,提高模型能够适应效能。
-
在两个代表性多模态医学数据集上进行了广泛实验,AdaCoMed在多个诊断任务中均显著优于现有的单模态大模型、传统多模态方法以及预训练的统一多模态编码器,展现出卓越的性能和泛化能力。

论文链接:
https://cvpr.thecvf.com/virtual/2025/poster/33688
图灵学术论文辅导
论文一:SAIST: Segment Any Infrared Small Target Model Guided by Contrastive Language-Image Pretraining
方法:
文章首先通过SR-CLIP模块生成视觉描述和文本描述,利用跨模态交互机制将两者融合,生成精准的文本和视觉提示。接着,CG-SAM模块利用这些提示和红外成像方程,指导SAM模型在复杂背景中准确识别小目标并抑制背景噪声。最后,通过多模态数据集MIRSTD进行训练和验证,实验结果表明该方法在多个指标上均优于现有的先进方法。

创新点:
-
提出了首个结合视觉和语言模态的红外小目标检测框架SAIST,显著提升了检测精度。
-
设计了场景识别对比语言-图像预训练模块,有效弥合了视觉与语言模态之间的领域差异。
-
引入了基于红外成像方程的CLIP指导分割模型,利用红外成像原理分离目标与背景,显著降低了误报率。

论文链接:
https://cvpr.thecvf.com/virtual/2025/poster/32729
图灵学术论文辅导
论文三:Learning on Model Weights using Tree Experts
方法:
文章首先通过实验验证了模型树内学习的优越性,发现同一模型树内的模型权重具有更少的噪声变化,使得学习过程更加高效。接着,提出了ProbeX方法,它通过在模型的隐藏层上应用探针,将权重映射到一个低维的表示空间,从而减少了参数数量并提高了计算效率。最后,通过构建Model Jungle数据集,作者在多个任务上验证了ProbeX的有效性,包括预测模型的训练数据类别和零样本模型分类,结果表明ProbeX在这些任务上均优于现有方法。

创新点:
-
首次提出利用模型树来简化权重空间学习,发现同一模型树内的模型权重变化更小,学习难度显著降低。
-
引入Probing Experts,专门用于从单个隐藏层的权重中学习,能够处理具有数亿参数的大模型。
-
提出零样本模型分类任务,实现了基于文本提示的模型分类,准确率达到 89.8%,为模型搜索提供了新的可能性。

论文链接:
https://cvpr.thecvf.com/virtual/2025/poster/34466
本文选自gongzhonghao【CVPR顶会精选】
更多推荐



所有评论(0)