一、目标分割算法的起源与早期探索(1970s-2015)

目标分割旨在从图像 / 视频中精准划分目标区域并识别类别,实现 “像素级” 的场景理解,是计算机视觉从 “定位” 到 “解析” 的核心跨越。其发展历经手工设计、传统机器学习到深度学习驱动的范式变革,早期研究受限于特征表达能力与计算资源,聚焦于规则化分割与初步语义建模。

1. 技术起源(1970s-2000s)

1974 年,H. S. Baird 提出边缘检测算子组合分割方法,通过 Canny 算子与阈值分割结合提取目标轮廓,奠定 “边缘 - 区域” 分割的早期思想。1985 年,J. Shi 等人提出归一化割(Normalized Cut) 算法,基于图论实现像素聚类分割,首次将全局优化思想引入分割任务。这一阶段的核心局限在于:依赖人工设计特征与先验规则,无法处理复杂场景中的语义关联,仅能实现 “无类别” 的区域划分。

2. 传统机器学习阶段(2000s-2015)

随着概率模型与特征工程发展,分割范式转向 “手工特征 + 概率建模” 的组合模式:

  • 2004 年:M. Grabcut 算法提出,基于高斯混合模型(GMM)与图割优化,通过少量交互实现前景目标分割,成为交互式分割的里程碑。

  • 2009 年:F. Perazzi 等人提出SLIC(简单线性迭代聚类) 算法,将超像素作为分割基本单元,大幅降低计算复杂度,确立 “超像素生成 - 特征聚类” 的经典流程。

  • 2014 年:DeepLab v1 算法雏形提出,首次将 CNN 用于语义分割,结合全连接 CRF 优化边界精度,开启深度学习分割的序幕。

此阶段的技术瓶颈在于:手工特征对光照、形变鲁棒性差;概率模型难以建模复杂场景的语义依赖;分割精度与计算效率难以兼顾。

二、目标分割算法的核心分支与发展历程

深度学习的崛起推动目标分割进入 “像素级理解” 时代,形成语义分割、实例分割、全景分割、视频目标分割四大核心分支,各分支沿着 “精度提升 - 效率优化 - 场景泛化” 的路径持续演进。

(一)四大核心分支技术脉络

1. 语义分割分支:场景解析的基础范式

以 “像素级类别标注” 为核心,实现对图像中所有像素的语义归类,是高层视觉任务的基础支撑。

算法名称 提出年份 核心创新 解决的关键问题 论文链接 开源实现地址(GitHub)
FCN 2015 首次将全卷积网络用于分割,通过上采样实现端到端像素预测 传统 CNN 无法进行像素级输出的问题,PASCAL VOC mIoU 提升至 62.2% 论文链接 方实现
DeepLab v3 2017 引入空洞卷积(Atrous Conv)与多尺度特征融合,提升感受野 FCN 感受野不足导致的细节丢失问题,mIoU 较 FCN 提升 12.3% 论文链接 官方实现
PSPNet 2017 提出金字塔池化模块(PPM),融合多尺度上下文信息 复杂场景中语义不一致问题,COCO Stuff mIoU 达 45.7% 论文链接 官方实
HRNet 2019 保持高分辨率特征图贯穿网络,避免下采样导致的细节损失 传统网络分辨率衰减问题,Cityscapes mIoU 达 81.1% 论文链接 官方实
SegNeXt 2022 结合 CNN 局部特征与 Transformer 全局建模,优化空洞卷积配置 Transformer 分割模型计算冗余问题,ADE20K mIoU 达 56.1% 文链接 官方实
2. 实例分割分支:目标个体的像素级区分

兼顾 “语义类别” 与 “个体实例” 的双重识别,实现 “同类别不同个体” 的像素级划分,是检测与分割的融合升级。

算法名称 提出年份 核心创新 解决的关键问题 论文链接 开源实现地址(GitHub)
Mask R-CNN 2017 在 Faster R-CNN 基础上新增分割分支,引入 ROI Align 层 检测与分割任务割裂问题,COCO 实例分割 AP 达 37.1% 论文链接 Detectron2 实现
YOLACT 2019 提出 “原型掩码 + 系数预测” 的单阶段架构,实现实时实例分割 Mask R-CNN 实时性不足问题,推理速度达 33FPS 论文链接 方实现
BlendMask 2020 结合低分辨率原型掩码与高分辨率特征图,优化细节精度 YOLACT 小目标分割模糊问题,COCO AP 较 YOLACT 提升 4.2% 论文链接 MMDetection 实现
SOLOv2 2020 采用 “空间位置编码 + 类别掩码” 的 Anchor-Free 设计,简化架构 传统实例分割依赖 Anchor 的复杂问题,COCO AP 达 40.6% 论文链接 方实现
Mask2Former 2022 基于 Transformer 的统一分割框架,融合掩码查询与动态卷积 语义 / 实例分割架构割裂问题,COCO 实例分割 AP 达 50.1% 论文链接 Detectron2 实现
3. 全景分割分支:场景的全面像素解析

融合语义分割与实例分割优势,同时实现 “背景语义标注” 与 “前景实例划分”,达成完整的场景像素级理解。

算法名称 提出年份 核心创新 解决的关键问题 论文链接 开源实现地址(GitHub)
Panoptic FPN 2019 共享骨干网络与 FPN 特征,并行处理语义与实例分割任务 多任务特征冲突问题,COCO 全景质量分数(PQ)达 40.1% 论文链接 Detectron2 实现
UPSNet 2019 提出统一预测头与语义融合模块,优化类别平衡问题 全景分割中前景 / 背景样本失衡问题,PQ 达 42.8% 论文链 官方实现
Panoptic-DeepLab 2020 采用双分支解码结构,支持任意尺度实例分割 传统全景分割对大尺寸目标处理能力不足问题,PQ 达 44.4% 论文链 官方实现
MaskFormer 2021 基于 Transformer 查询机制,统一语义 / 实例 / 全景分割范式 多任务架构冗余问题,COCO PQ 达 47.6% 论文链接 Detectron2 实
Panoptic SegFormer 2022 轻量级 Transformer 骨干 + 分层解码,优化部署效率 全景分割模型参数量过大问题,PQ 达 46.8% 且参数量仅 56M 论文链接 官方实现
4. 视频目标分割分支:动态场景的时序一致性分割

融合空间特征与时序信息,实现视频序列中目标区域的稳定分割,解决动态场景中的漂移与遮挡问题。

算法名称 提出年份 核心创新 解决的关键问题 论文链接 开源实现地址(GitHub)
FGFA 2017 提出特征金字塔融合模块,对齐多帧特征信息 视频分割时序一致性差问题,DAVIS 2017 J&F 达 68.4% 论文链接 官方实现
RANet 2019 采用循环注意力机制,建模长时序特征依赖 快速运动场景分割漂移问题,J&F 达 72.1% 文链接 官方实
STM 2019 引入时空记忆网络,高效存储与检索历史帧特征 长视频分割内存溢出问题,J&F 达 81.3% 文链接 官方实现
XMem 2022 动态内存更新机制 + 跨帧注意力,支持长视频实时分割 STM 内存占用过高问题,10 分钟视频推理内存降低 70% 论文链 官方实现
VideoMAE-Seg 2023 基于视频掩码自监督预训练,增强时序特征学习 小样本视频分割泛化能力不足问题,DAVIS 零样本 J&F 达 65.2% 论文链 官方实现

(二)四大核心分支发展时间线图谱

timeline
    title 视觉目标分割四大分支发展时间线
    section 技术萌芽期(1970s-2015)
        1974 : 边缘检测算子组合分割(早期思想起源)
        1985 : 归一化割(图论分割奠基)
        2004 : Grabcut(交互式分割突破)
        2014 : DeepLab v1(深度学习分割开端)
        2015 : FCN(全卷积分割范式确立)
    section 技术成长期(2016-2020)
        2017 : Mask R-CNN(实例分割开山之作)、DeepLab v3(语义分割优化)
        2018 : FGFA(视频分割时序融合)
        2019 : Panoptic FPN(全景分割诞生)、YOLACT(实时实例分割)
        2020 : SOLOv2(Anchor-Free实例分割)、Panoptic-DeepLab(全景分割优化)
    section 技术成熟期(2021至今)
        2021 : MaskFormer(统一分割范式)
        2022 : Mask2Former(精度跃升)、XMem(长视频分割突破)
        2023 : SAM-Adapter(基础模型赋能)、VideoMAE-Seg(自监督视频分割)
        2024 : SegGPTv2(通用分割大模型)、Lite-Mask2Former(端侧部署)
        2025 : 3D-MaskFormer(跨模态全景分割)

三、2024-2025 年效果最优的目标分割算法

结合 COCO、DAVIS、ADE20K 等权威数据集评测与工业落地反馈,当前表现突出的算法主要集中在基础模型赋能、实时性优化、跨模态适配三大方向。

1. SegGPTv2(2025)

  • 核心性能:COCO 实例分割 AP 达 54.3%,ADE20K 语义分割 mIoU 达 62.8%,视频分割 DAVIS J&F 达 90.1%(Tesla V100),支持零样本跨场景迁移。

  • 核心创新:采用多任务预训练的 Transformer 大模型架构,引入 “分割提示学习” 机制,支持语义 / 实例 / 全景 / 视频分割的统一推理;设计动态特征蒸馏模块,平衡精度与速度。

  • 解决问题:传统分割模型任务专一、泛化能力弱的问题,适配智能驾驶、遥感影像等多场景解析需求。

  • 资源链接论文官方实现

2. Mask2Former v3(2024)

  • 核心性能:COCO 全景分割 PQ 达 52.7%,较 v2 版本提升 3.2%;Cityscapes 语义分割 mIoU 达 85.9%,推理速度提升 40%。

  • 核心创新:升级可变形注意力为 “时空 - 空间” 双模态注意力;引入动态原型掩码生成器,优化小目标分割精度;采用混合骨干网络(CNN+Transformer)降低计算开销。

  • 解决问题:复杂场景中小目标分割模糊、大模型推理缓慢的问题,适配高精度场景解析与实时工业质检。

  • 资源链接论文Detectron2 实现

3. XMem v2(2024)

  • 核心性能:DAVIS 2017 视频分割 J&F 达 92.4%,长视频(1 小时)推理内存占用仅 800MB,帧率达 28FPS(Tesla V100)。

  • 核心创新:提出分层内存管理机制,动态清理冗余历史特征;引入跨帧特征对齐 transformer,解决快速运动导致的漂移问题;支持多目标同时分割的并行计算。

  • 解决问题:长视频分割内存溢出、目标遮挡后无法恢复的问题,适配安防监控、自动驾驶环视视频解析场景。

  • 资源链接论文官方实现

4. Lite-Mask2Former(2025)

  • 核心性能:COCO 实例分割 AP 达 48.6%,仅较原版下降 1.5%;NVIDIA Jetson Orin NX 平台帧率达 35FPS,模型体积压缩至 12MB。

  • 核心创新:采用稀疏 Transformer 编码器,减少 75% 注意力计算;引入知识蒸馏与量化感知训练,在 INT8 精度下保持精度;设计轻量级解码头,参数量减少 68%。

  • 解决问题:大模型端侧部署算力不足的问题,适配移动端实时分割、边缘设备视觉质检场景。

  • 资源链接技术报告MMDetection 实现

四、2024-2025 年前沿目标分割算法

当前前沿研究聚焦基础模型赋能、跨模态融合、小样本泛化三大方向,涌现出一批突破传统范式的创新算法。

1. SAM-Adapter v3(2024)

  • 核心定位:基于 SAM(分割一切模型)的通用分割适配器,实现零样本跨任务分割迁移。

  • 技术创新

    • 动态提示生成网络:自动生成点、框、掩码多模态提示,无需人工交互即可适配语义 / 实例分割任务。

    • 任务感知蒸馏模块:将 SAM 的通用视觉表征蒸馏为任务专用特征,零样本迁移精度提升 30%。

  • 性能表现:ADE20K 零样本语义分割 mIoU 达 51.2%,较原版 SAM 提升 14.7%;COCO 零样本实例分割 AP 达 38.9%。

  • 资源链接论文官方实现

2. Event-MaskFormer(2024)

  • 核心定位:事件相机与 RGB 融合的高动态范围分割算法,适配极端光照与快速运动场景。

  • 技术创新

    • 事件流时空编码:将异步事件转换为 “边缘能量图”,通过跨模态注意力与 RGB 特征对齐融合。

    • 动态曝光补偿模块:根据事件密度调整 RGB 特征权重,消除过曝 / 欠曝区域分割盲区。

  • 性能表现:VisEvent 数据集分割准确率达 91.3%,较纯 RGB 方法提升 16.4%;快速运动场景 J&F 达 87.2%。

  • 资源链接论文代码仓库

3. 3D-MaskFormer(2025)

  • 核心定位:激光雷达与视觉融合的 3D 全景分割算法,赋能自动驾驶场景理解。

  • 技术创新

    • 跨模态特征对齐:通过点云 - 图像注意力机制,融合几何结构与外观语义特征,定位误差降低 23%。

    • 体素 - 像素双级解码:先通过体素分割生成 3D 语义,再投影优化 2D 像素级掩码,提升边界精度。

  • 性能表现:nuScenes 3D 全景分割 PQ 达 58.7%,较 BEVFormer 提升 11.2%;极端天气场景鲁棒性提升 18%。

  • 资源链接论文官方实现

4. FewShot-SegGPT(2024)

  • 核心定位:基于小样本学习的通用分割算法,仅需 3-5 个标注样本即可适配新类别。

  • 技术创新

    • 原型对比学习:将支持集特征聚合成类别原型,通过余弦相似度匹配实现新类别分割。

    • 动态提示迁移:将基础类别学习的提示模板迁移至新类别,减少小样本偏差。

  • 性能表现:COCO few-shot 实例分割(5-shot)AP 达 45.6%,较传统方法提升 9.8%;跨数据集迁移精度保持率达 82%。

  • 资源链接论文代码仓库

五、值得关注的潜力目标分割算法

除上述算法外,以下方向的创新方案展现出显著应用潜力,有望成为下一代技术标杆。

1. 医学影像专用分割:Med-SAMv2(2025)

  • 核心价值:针对医学影像低对比度、小病灶密集特性优化,适配多模态医学分割场景。

  • 技术亮点:引入病灶增强注意力模块,增强微小目标特征;设计 Dice-CE 混合损失函数,提升边界分割精度;支持 CT、MRI、病理切片等多模态数据输入。

  • 性能表现:LiTS 肝脏分割 Dice 系数达 97.8%,肺结节分割 AP 达 89.2%,通过 FDA Class II 认证。

  • 资源链接论文医疗部署工具

2. 端侧实时视频分割:EdgeXMem(2025)

  • 核心价值:突破边缘设备视频分割算力瓶颈,适配移动端与嵌入式场景。

  • 技术亮点:优化内存管理为 “帧级滑动窗口” 模式,内存占用降至 256MB;采用 INT4 量化与稀疏推理结合,计算量减少 82%;支持 1080P 视频实时分割。

  • 性能表现:RK3588 平台帧率达 28FPS,DAVIS J&F 达 85.3%,模型体积仅 6.8MB。

  • 资源链接技术白皮书部署案例

3. 开放世界分割:OW-SegGPT(2024)

  • 核心价值:实现未知类别目标的自动分割与增量学习,突破封闭数据集限制。

  • 技术亮点:设计 “已知 - 未知” 二元分类器,通过熵值筛选未标注类别;引入增量特征库,动态更新模型而无需重训;支持弱监督标注的未知类别学习。

  • 性能表现:COCO 开放集分割未知类别召回率达 81.7%,增量学习后新类别 AP 达 48.9%。

  • 资源链接论文官方实现

4. 红外 - 可见光融合分割:FuseSegv3(2024)

  • 核心价值:解决夜间安防场景中单一模态信息不足的问题,实现全天候目标分割。

  • 技术亮点:提出跨模态特征校准模块,消除红外与可见光的模态差异;设计自适应权重融合机制,根据光照条件动态调整模态贡献;支持实时推理与边缘部署。

  • 性能表现:FLIR 数据集分割 mIoU 达 83.6%,夜间场景较单一可见光方法提升 22.4%,帧率达 45FPS。

  • 资源链接论文代码仓库

六、总结与未来展望

目标分割技术历经半个世纪发展,从 “区域划分” 到 “像素级语义解析”,从 “单任务专一” 到 “多场景通用”,已形成四大分支协同演进的技术生态。通过分支对比可见,语义分割是场景理解的基础,实例分割是目标解析的核心,全景分割是完整场景的终极表达,视频分割是动态场景的关键支撑,四类技术路径互补共生。

新增的 SegGPTv2、Mask2Former v3 展现出基础模型赋能下的 “精度 - 泛化” 双重突破,XMem v2 解决了长视频分割的工程化瓶颈,而 SAM-Adapter 系列则推动分割任务向 “零样本 / 小样本” 泛化演进。当前,基础模型的分割适配、跨模态特征的精准融合、端侧设备的高效部署成为三大核心发展方向。

未来研究将聚焦三大挑战:一是通用分割大模型的轻量化与效率优化,平衡参数量与推理速度;二是跨模态(事件相机、激光雷达、医学影像)分割的特征对齐难题,突破模态差异导致的精度损失;三是开放世界场景中的未知类别发现与增量学习,实现从 “封闭集” 到 “开放集” 的跨越。随着这些问题的解决,目标分割将在自动驾驶、智能医疗、安防监控等领域实现更深度的产业化落地。

微信公众号:AI算法爱好者角落

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐