《博主简介》

小伙伴们好,我是阿旭。
专注于计算机视觉领域,包括目标检测、图像分类、图像分割和目标跟踪等项目开发,提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称 项目名称
1.【人脸识别与管理系统开发 2.【车牌识别与自动收费管理系统开发
3.【手势识别系统开发 4.【人脸面部活体检测系统开发
5.【图片风格快速迁移软件开发 6.【人脸表表情识别系统
7.【YOLOv8多目标识别与自动标注软件开发 8.【基于深度学习的行人跌倒检测系统
9.【基于深度学习的PCB板缺陷检测系统 10.【基于深度学习的生活垃圾分类目标检测系统
11.【基于深度学习的安全帽目标检测系统 12.【基于深度学习的120种犬类检测与识别系统
13.【基于深度学习的路面坑洞检测系统 14.【基于深度学习的火焰烟雾检测系统
15.【基于深度学习的钢材表面缺陷检测系统 16.【基于深度学习的舰船目标分类检测系统
17.【基于深度学习的西红柿成熟度检测系统 18.【基于深度学习的血细胞检测与计数系统
19.【基于深度学习的吸烟/抽烟行为检测系统 20.【基于深度学习的水稻害虫检测与识别系统
21.【基于深度学习的高精度车辆行人检测与计数系统 22.【基于深度学习的路面标志线检测与识别系统
23.【基于深度学习的智能小麦害虫检测识别系统 24.【基于深度学习的智能玉米害虫检测识别系统
25.【基于深度学习的200种鸟类智能检测与识别系统 26.【基于深度学习的45种交通标志智能检测与识别系统
27.【基于深度学习的人脸面部表情识别系统 28.【基于深度学习的苹果叶片病害智能诊断系统
29.【基于深度学习的智能肺炎诊断系统 30.【基于深度学习的葡萄簇目标检测系统
31.【基于深度学习的100种中草药智能识别系统 32.【基于深度学习的102种花卉智能识别系统
33.【基于深度学习的100种蝴蝶智能识别系统 34.【基于深度学习的水稻叶片病害智能诊断系统
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统 36.【基于深度学习的智能草莓病害检测与分割系统
37.【基于深度学习的复杂场景下船舶目标检测系统 38.【基于深度学习的农作物幼苗与杂草检测系统
39.【基于深度学习的智能道路裂缝检测与分析系统 40.【基于深度学习的葡萄病害智能诊断与防治系统
41.【基于深度学习的遥感地理空间物体检测系统 42.【基于深度学习的无人机视角地面物体检测系统
43.【基于深度学习的木薯病害智能诊断与防治系统 44.【基于深度学习的野外火焰烟雾检测系统
45.【基于深度学习的脑肿瘤智能检测系统 46.【基于深度学习的玉米叶片病害智能诊断与防治系统
47.【基于深度学习的橙子病害智能诊断与防治系统 48.【基于深度学习的车辆检测追踪与流量计数系统
49.【基于深度学习的行人检测追踪与双向流量计数系统 50.【基于深度学习的反光衣检测与预警系统
51.【基于深度学习的危险区域人员闯入检测与报警系统 52.【基于深度学习的高密度人脸智能检测与统计系统
53.【基于深度学习的CT扫描图像肾结石智能检测系统 54.【基于深度学习的水果智能检测系统
55.【基于深度学习的水果质量好坏智能检测系统 56.【基于深度学习的蔬菜目标检测与识别系统
57.【基于深度学习的非机动车驾驶员头盔检测系统 58.【太基于深度学习的阳能电池板检测与分析系统
59.【基于深度学习的工业螺栓螺母检测 60.【基于深度学习的金属焊缝缺陷检测系统
61.【基于深度学习的链条缺陷检测与识别系统 62.【基于深度学习的交通信号灯检测识别
63.【基于深度学习的草莓成熟度检测与识别系统 64.【基于深度学习的水下海生物检测识别系统
65.【基于深度学习的道路交通事故检测识别系统 66.【基于深度学习的安检X光危险品检测与识别系统
67.【基于深度学习的农作物类别检测与识别系统 68.【基于深度学习的危险驾驶行为检测识别系统
69.【基于深度学习的维修工具检测识别系统 70.【基于深度学习的维修工具检测识别系统
71.【基于深度学习的建筑墙面损伤检测系统 72.【基于深度学习的煤矿传送带异物检测系统
73.【基于深度学习的老鼠智能检测系统 74.【基于深度学习的水面垃圾智能检测识别系统
75.【基于深度学习的遥感视角船只智能检测系统 76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统 78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统
79.【基于深度学习的果园苹果检测与计数系统 80.【基于深度学习的半导体芯片缺陷检测系统
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统 82.【基于深度学习的运动鞋品牌检测与识别系统
83.【基于深度学习的苹果叶片病害检测识别系统 84.【基于深度学习的医学X光骨折检测与语音提示系统
85.【基于深度学习的遥感视角农田检测与分割系统 86.【基于深度学习的运动品牌LOGO检测与识别系统
87.【基于深度学习的电瓶车进电梯检测与语音提示系统 88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统 90.【基于深度学习的舌苔舌象检测识别与诊断系统
91.【基于深度学习的蛀牙智能检测与语音提示系统 92.【基于深度学习的皮肤癌智能检测与语音提示系统
93.【基于深度学习的工业压力表智能检测与读数系统 94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】 96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

引言

在这里插入图片描述
SAM(Segment Anything Model)系列模型作为Meta FAIR推出的视觉分割基础模型,从最初的图像交互式分割,逐步拓展到视频领域,再到支持概念级prompt理解,实现了从“分割特定对象”到“分割任意概念”的跨越。本文将详细拆解SAM、SAM 2、SAM 3三个版本的核心特点、技术创新与能力升级,展现其如何持续重塑视觉分割的技术边界。

一、SAM:图像分割的“交互革命”(2023)

作为系列开篇之作,SAM首次将“可提示性分割(Promptable Segmentation)”概念落地,为图像分割带来了全新的交互范式。

核心定位

在这里插入图片描述

专注于静态图像的交互式分割,支持点、框、掩码等视觉提示输入,用户通过简单交互即可实现任意对象的分割,无需针对特定任务微调。

关键创新

  1. 通用分割能力:基于SA-1B数据集(10亿级掩码标注)训练,实现“分割一切”的零样本泛化能力,可适配医疗影像、遥感图像等多种场景。
  2. 高效交互设计:采用轻量级掩码解码器,针对模糊提示(如单个点击)会输出多个候选掩码,确保总能生成有效结果。
  3. 模块化架构:由图像编码器、提示编码器和掩码解码器组成,图像编码器采用ViT-H/L/B架构,兼顾精度与速度。

核心局限

  • 仅支持静态图像,无法处理视频的时间维度信息;
  • 依赖视觉提示,不支持文本等高层概念输入;
  • 一次交互仅能分割单个对象实例,无法批量处理同类对象。

二、SAM 2:打通图像与视频的“时空分割”(2024)

SAM 2作为系列的第二代模型,核心突破是将分割能力从静态图像拓展到动态视频,实现了图像与视频的统一分割框架。
在这里插入图片描述

核心定位

统一图像与视频的可提示性分割,支持在视频任意帧添加提示,自动生成跨帧掩码序列(masklet),兼顾实时性与准确性。

关键创新

  1. 流式内存架构:引入内存注意力模块和内存银行,存储过往帧的对象信息与交互历史,支持视频帧的逐帧流式处理,无需一次性加载全部视频。
  2. 视频分割优化:针对视频的运动、遮挡、模糊等问题,通过内存上下文校正分割结果,仅需3倍 fewer交互即可达到优于前代的视频分割精度。
  3. 效率与精度双升:采用MAE预训练的Hiera图像编码器,相比SAM快6倍,同时在图像分割任务上保持更高精度。
  4. 大规模数据集支撑:构建SA-V数据集,包含50.9K视频、35.5M掩码,是当时最大的视频分割数据集,覆盖室内外多种场景,支持“分割任意视频对象”。

核心升级

  • 从“单帧图像”到“多帧视频”,新增时空维度建模;
  • 支持视频任意帧交互 refinement,解决遮挡后重识别等视频特有问题;
  • 保持与SAM一致的图像分割能力,实现“一套模型适配两类任务”。

三、SAM 3:迈向概念级理解的“全能分割”(2026)

SAM 3作为系列的第三代模型,实现了从“视觉提示驱动”到“概念提示驱动”的质变,支持文本短语、图像示例等高层概念输入,开启了开放词汇分割的新篇章。
在这里插入图片描述

核心定位

Promptable Concept Segmentation(PCS),支持文本短语(如“黄色校车”)、图像示例等概念提示,可分割图像/视频中所有匹配该概念的对象实例,并保持跨帧身份一致性。

关键创新

在这里插入图片描述

  1. 概念级理解能力:突破视觉提示局限,支持简单名词短语、图像示例及组合提示,可批量分割同类对象(如“所有猫咪”),而非单个实例。
  2. 解耦识别-定位架构:引入全局存在令牌(Presence Token),专门负责判断概念是否存在于图像/帧中,对象查询仅负责定位,大幅提升开放词汇场景下的检测精度。
  3. 高效数据引擎:构建SA-Co数据集,包含4M独特概念标签、52M高质量掩码,通过“人类+AI验证”机制,标注效率较前代提升8.4倍,覆盖15个视觉领域。
  4. 视频跟踪优化:结合检测器与SAM 2风格的跟踪器,通过IoU匹配、周期性重提示等策略,解决拥挤场景、遮挡等跟踪难题,支持多对象并行跟踪。
  5. 多能力融合:在保留图像/视频分割能力的基础上,新增对象计数、复杂查询理解(需结合MLLM)等功能,零-shot性能超越现有开放词汇分割模型。

核心突破

  • 从“分割特定对象”到“分割一类概念”,实现开放词汇场景的泛化;
  • 从“单一视觉提示”到“多模态概念提示”,更贴近人类自然交互习惯;
  • 数据引擎引入AI验证器,大幅降低高质量标注成本,支撑概念级分割训练。

四、SAM系列的进化脉络与行业影响

技术进化主线

  1. 任务边界拓展:图像分割(SAM)→ 图像+视频统一分割(SAM 2)→ 概念级开放词汇分割(SAM 3),逐步突破任务场景限制;
  2. 提示能力升级:视觉提示(点/框/掩码)→ 时空视觉提示 → 概念提示(文本/图像示例),交互方式更自然、更高层;
  3. 架构持续优化:模块化基础架构 → 流式内存扩展 → 解耦识别-定位架构,逐步适配更复杂的任务需求;
  4. 数据驱动升级:SA-1B(图像)→ SA-V(视频)→ SA-Co(概念),数据集规模与多样性持续扩大,支撑模型泛化能力提升。

行业价值

  • 降低分割技术使用门槛:从专业标注工具到“自然语言/简单交互”即可使用,赋能非专业用户;
  • 拓展应用场景:覆盖AR/VR、机器人、视频编辑、医疗影像等,从静态场景到动态场景,从特定对象到一类概念;
  • 树立基础模型标杆:证明视觉分割模型可通过“基础模型+提示工程”实现通用化,为后续开放词汇视觉任务提供范式。

在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐