SAM十年演进

2015-2025年，是SAM从传统图像分割的技术积累，到彻底重构计算机视觉分割范式的黄金十年。尽管正式诞生于2023年4月，但其核心思想“通用零样本分割”的技术脉络可追溯至2015年深度学习分割的启蒙阶段。这十年，SAM完成了，中国也从技术跟随者跃升为全球并跑、部分领域领跑的核心创新力量。SAM的核心本质，是Meta AI推出的。

jzwspace

542人浏览 · 2026-02-28 12:35:37

jzwspace · 2026-02-28 12:35:37 发布

SAM（Segment Anything Model）十年演进（2015-2025）

2015-2025年，是SAM从传统图像分割的技术积累，到彻底重构计算机视觉分割范式的黄金十年。尽管SAM（Segment Anything Model） 正式诞生于2023年4月，但其核心思想“通用零样本分割”的技术脉络可追溯至2015年深度学习分割的启蒙阶段。这十年，SAM完成了从“固定类别强监督专用分割”到“提示驱动零样本通用分割”的范式革命，从CV领域的子任务工具，升级为多模态大模型、具身智能、自动驾驶的核心基础能力，中国也从技术跟随者跃升为全球并跑、部分领域领跑的核心创新力量。

SAM的核心本质，是Meta AI推出的首个通用图像分割基础模型，通过“图像编码器+提示编码器+掩码解码器”的三段式架构，以1100万张图像、11亿个掩码的SA-1B数据集预训练，实现了点、框、文本、掩码等多提示驱动的零样本分割，无需微调即可适配未见过的物体与场景，彻底打破了传统分割模型“一任务一模型、强依赖标注数据”的行业痛点。

这十年，SAM的演进与Transformer架构革命、大模型爆发、具身智能崛起深度绑定，完成了**「深度学习分割启蒙期、通用化探索成长期、范式革命爆发期、全场景原生普及期」**四大核心阶段，从实验室的学术概念，成长为千行百业智能化升级的核心基础设施。

一、十年演进总纲与四大里程碑

SAM的十年演进，始终围绕通用化、低标注依赖、高效化、多模态融合、国产化五大核心主线，核心突破始终围绕“如何让分割模型摆脱标注与场景的限制，实现对任意物体、任意场景的通用理解与精准分割”，整体可划分为四大里程碑阶段，与计算机视觉的十年发展完全对齐：

2015-2017 启蒙萌芽期：FCN开启深度学习分割时代，U-Net、Mask R-CNN奠定专用分割的技术基础，核心是固定类别、强监督学习，泛化能力极差，完全处于“一任务一训练”的专用阶段。
2018-2020 泛化探索成长期：Transformer进入CV领域，DETR重构检测与分割范式，开放词汇分割、弱监督/零样本分割快速发展，开始摆脱固定类别与强标注依赖，为SAM的通用分割范式奠定了架构与理论基础。
2021-2023 范式革命爆发期：ViT与自监督学习全面成熟，2023年Meta正式发布SAM，开启“提示驱动、零样本通用分割”的全新时代，彻底重构了分割任务的定义；FastSAM、MedSAM等变体爆发，国产模型快速跟进，实现从0到1的突破。
2024-2025 全场景原生普及期：SAM2、SAM3先后发布，能力从2D图像扩展到视频、3D点云，从“物体分割”升级为“概念理解”；多模态融合、端侧部署全面成熟，国产模型在工业、自动驾驶、医疗领域实现领跑，SAM成为具身智能、多模态大模型的原生基础组件。

二、四大阶段详细演进详解

第一阶段：2015-2017 启蒙萌芽期——深度学习分割时代开启，专用分割范式确立

产业背景

2015年之前，图像分割仍以传统阈值分割、边缘检测、区域生长算法为主，精度低、泛化性差，仅能适配简单固定场景。2015年，FCN（全卷积网络）正式发布，首次将卷积神经网络用于端到端的像素级分割，开启了深度学习分割的全新时代；同年U-Net发布，成为医学影像分割的行业标准；2017年Mask R-CNN发布，将目标检测与实例分割统一，成为实例分割的经典范式。这一阶段，分割任务的核心逻辑是固定类别、强监督学习，每个场景、每个类别都需要大量标注数据单独训练，泛化能力极差，行业形成了“一任务一模型”的固化范式。

核心技术演进

主流技术范式：以CNN为核心的编码器-解码器架构为绝对主流，核心是通过堆叠卷积层提取多尺度特征，实现像素级分类；完全依赖人工标注的固定类别数据集，无零样本/跨场景泛化能力。
里程碑式突破：
- 2015年，FCN发布，首次实现端到端的语义分割，摒弃了全连接层，用卷积层完成像素级预测，奠定了深度学习分割的基础范式；
- 2015年，U-Net发布，通过编码器-解码器的跳跃连接，解决了医学影像小样本、细粒度分割的痛点，成为医疗分割的行业标准，至今仍广泛应用；
- 2017年，Mask R-CNN发布，在Faster R-CNN的基础上增加掩码分支，实现了目标检测与实例分割的统一，在COCO数据集上实现SOTA性能，成为实例分割的经典架构；
- 2017年，Transformer架构正式发布，为后续分割范式的重构埋下了核心伏笔。
核心局限：完全依赖大规模人工标注数据，每个新场景、新类别都需要重新标注与训练；泛化能力极差，训练外的物体与场景完全无法分割；仅能适配固定类别，无法响应自然语言、交互提示的灵活分割需求。

国产技术与落地状态

国内仅少数高校开展深度学习分割的理论研究，无自主知识产权的核心架构；工业界以安防、工业检测场景的专用分割模型为主，完全基于海外开源架构二次开发，无核心创新；医疗、自动驾驶等高端场景完全依赖海外方案，处于纯技术跟随状态。

产业格局与核心痛点

产业格局：海外机构主导了深度学习分割的核心架构创新，ResNet、FCN、Mask R-CNN等经典模型完全由海外发布，国内厂商仅能做场景适配与二次开发；分割任务完全碎片化，无通用解决方案，行业门槛极高。
核心痛点：标注成本极高，一张专业图像的像素级标注成本高达数百元，大规模标注成为分割落地的最大瓶颈；模型泛化能力极差，跨场景适配性几乎为零；核心技术完全被海外垄断，国内无自主话语权。

第二阶段：2018-2020 泛化探索成长期——Transformer入局，通用分割能力萌芽

产业背景

2018年BERT开启了NLP领域的预训练范式，研究者迅速将Transformer与预训练思想迁移到计算机视觉领域；2020年ViT发布，首次证明纯Transformer架构在视觉领域的性能可以全面超越CNN，彻底打破了CNN对CV领域的垄断。这一阶段，分割任务的核心发展方向从“专用固定类别分割”转向“开放词汇、弱监督、零样本分割”，开始摆脱标注与类别的限制，为SAM的通用分割范式奠定了核心基础。

核心技术演进

主流技术范式：从CNN专用架构，转向Transformer驱动的预训练范式；核心目标从“固定类别高精度分割”，转向“开放词汇、跨场景泛化分割”，弱监督、自监督学习成为核心技术方向。
里程碑式突破：
- 2020年，DETR发布，首次将Transformer用于端到端的目标检测与分割，摒弃了锚框、NMS等手工设计组件，用Transformer的自注意力机制实现全局建模，为后续提示驱动分割奠定了架构基础；
- 2020年，ViT发布，证明纯Transformer架构可以全面超越CNN，实现了视觉与NLP的统一基础架构，为SAM的ViT-H图像编码器提供了核心支撑；
- 开放词汇分割快速发展，OVSeg、CLIPSeg等模型将CLIP的图文对齐能力引入分割，实现了文本提示驱动的开放词汇分割，摆脱了固定类别的限制；
- 弱监督、自监督分割技术成熟，仅用图像级标注、甚至无标注数据即可训练分割模型，大幅降低了对像素级标注的依赖。
核心能力升级：从固定类别分割，升级为开放词汇分割，可识别训练外的新类别；从强监督依赖，升级为弱监督/自监督学习，标注成本降低90%以上；从CNN局部建模，升级为Transformer全局建模，长距离依赖与语义理解能力大幅提升。

国产技术突破与落地

国内高校与厂商开始跟进Transformer分割架构，百度、阿里、商汤等厂商在开放词汇分割、工业质检场景实现了初步落地；旷视、字节跳动等机构在CVPR、ICCV等顶会发表多篇Transformer分割论文，逐步从学术跟随走向并跑；医疗影像、安防场景的国产专用分割模型实现了规模化落地，打破了海外方案的垄断。

产业格局与核心痛点

产业格局：海外机构仍主导核心架构创新，DETR、ViT等里程碑模型均由海外发布；国内厂商在场景落地、工程化适配方面实现了快速追赶，形成了“海外引领学术，国内落地先行”的格局。
核心痛点：开放词汇分割的泛化能力仍有限，仅能适配常见类别，对罕见物体、复杂场景的分割精度不足；提示交互能力弱，仅支持简单文本提示，无法响应点、框等灵活的交互输入；模型训练仍需要大量数据，零样本跨场景泛化能力仍未突破。

第三阶段：2021-2023 范式革命爆发期——SAM正式发布，通用分割时代开启

产业背景

2021年CLIP发布，实现了大规模图文对齐，为提示驱动的分割提供了语义基础；MAE等自监督预训练技术成熟，大幅降低了视觉大模型的训练成本；ViT架构全面普及，为通用分割模型提供了稳定的骨干网络。2023年4月，Meta AI正式发布《Segment Anything》论文与SAM模型，彻底重构了分割任务的定义——分割不再是固定类别的像素分类，而是提示驱动的通用任务，无需微调、无需标注，即可实现任意物体、任意场景的零样本分割，被称为“计算机视觉的GPT-3时刻”，开启了通用分割的全新时代。

核心技术演进

主流技术范式：提示驱动的零样本通用分割成为行业主流，核心架构为“ViT图像编码器+提示编码器+轻量级掩码解码器”，通过大规模预训练实现通用分割能力，无需针对特定任务微调，彻底打破了传统分割的碎片化范式。
里程碑式突破：
- 2023年4月，Meta正式发布SAM，核心创新包括：① 定义了“可提示分割”的新任务，支持点、框、掩码、文本多类型提示；② 构建了SA-1B数据集，包含1100万张高分辨率图像、11亿个高质量掩码，是史上最大的分割数据集；③ 零样本泛化能力实现质的飞跃，在未见过的物体、场景、模态（医学影像、遥感图像）上，均实现了专业级分割精度；
- 2023年6月，中科院发布FastSAM，将分割任务解耦为全实例分割+提示引导选择，以50倍的推理速度实现了与原版SAM相近的效果，成为首个实时通用分割模型，大幅降低了部署门槛；
- 2023年，MedSAM、SAM-Med3D发布，针对医学影像场景优化，实现了CT、MRI、病理切片的零样本通用分割，成为医疗AI的核心工具；
- MobileSAM、TinySAM等轻量化模型发布，通过知识蒸馏、模型量化，实现了100倍的推理加速，可在移动端实时运行，解决了SAM的端侧部署痛点；
- SAM-Adapter发布，通过轻量级适配器将SAM的通用表征迁移到语义分割、全景分割任务，零样本迁移精度较原版SAM提升14.7%，解锁了SAM的行业适配能力。
核心能力质变：从“一任务一训练”的专用模型，升级为“一次预训练、全场景零样本适配”的通用基础模型；标注依赖从百万级像素级标注，降低为零标注即可适配新场景；推理速度从200ms/帧，优化到40ms/帧以内，实现了实时部署。

国产技术全面突破

中科院FastSAM、清华SAM-Adapter、华为SAM-Med、百度EdgeSAM等国产模型先后发布，在推理速度、轻量化、行业适配等方面实现了对原版SAM的超越；
商汤、旷视、字节跳动等厂商将SAM集成到工业质检、视频编辑、自动驾驶系统中，实现了规模化商业落地；
阿里通义、腾讯混元、百度文心等国产大模型，将SAM的分割能力与多模态大模型深度融合，实现了自然语言驱动的图像编辑、场景理解，打破了OpenAI、Meta的技术垄断。

工程化与落地能力

工业领域：SAM在3C缺陷检测、新能源电池质检、半导体晶圆检测场景实现规模化落地，标注成本降低90%，缺陷检测精度提升30%，工业视觉领域渗透率快速提升至20%以上；
医疗领域：MedSAM成为医学影像分割的通用基座，在肿瘤分割、病理切片分析、手术影像导航场景实现落地，大幅降低了医疗AI的开发门槛；
自动驾驶领域：小鹏、华为、商汤将SAM用于BEV感知、占用网格预测、障碍物分割，提升了城市NOA对长尾障碍物的识别能力；
内容创作领域：Photoshop、剪映等工具集成SAM能力，实现了一键抠图、背景替换、视频编辑，用户规模突破10亿，成为大众级应用。

产业格局

全球格局形成中美双极引领：Meta主导了SAM的范式创新，国内厂商在模型优化、轻量化、行业落地方面实现了快速追赶与部分超越；国内市场国产SAM变体占有率突破50%，相关专利数量占全球40%以上，从技术跟随者成长为全球通用分割领域的核心创新者。

第四阶段：2024-2025 全场景原生普及期——视频/3D能力突破，国产方案全球领跑

产业背景

2024-2025年，SAM已经从单一的分割工具，升级为多模态大模型、具身智能、自动驾驶的原生基础组件。2024年7月，Meta发布SAM2，首次将图像与视频分割统一到同一架构，实现了视频中任意物体的实时分割与追踪；2025年，SAM3发布，实现了从“物体分割”到“概念理解”的跨越，支持精细文本描述、示例图像驱动的概念分割，同时拓展到3D点云分割，完成了从2D到3D、从静态到动态的全场景覆盖。

这一阶段，国产模型在工业、自动驾驶、医疗、机器人领域实现了全面领跑，SAM从头部企业的高端工具，走向中小微企业的普惠化应用，成为计算机视觉的标配基础能力。

核心技术演进

主流技术范式：时空统一、多模态原生的通用分割架构成为行业标准，从2D静态图像扩展到视频、3D点云全场景，从单一视觉模态扩展到文本、音频、动作多模态融合，深度融入VLA（视觉-语言-动作）模型，成为具身智能的核心感知底座。
里程碑式突破：
- 2024年7月，Meta发布SAM2，核心创新包括：① 统一图像与视频分割架构，首次实现任意视频中任意物体的实时分割与追踪；② 创新流式内存与记忆注意力机制，解决了视频帧间目标一致性、遮挡恢复的核心痛点；③ 构建了SA-V大规模视频数据集，包含5.1万个视频、3550万个掩码，是现有最大视频分割数据集的53倍；④ 图像分割速度较原版SAM提升6倍，视频分割交互次数减少3倍，实现了实时流式处理；
- 2025年，Meta发布SAM3，推出可提示概念分割（PCS）任务，实现了从“在哪里分割”到“分割什么”的跨越，支持“手持书籍的人”“红色条纹伞”等精细文本描述，甚至示例图像驱动的同类物体分割，在LVIS零样本分割任务中准确率达47.0，远超此前SOTA的38.5；
- 2025年，SAM3D发布，将分割能力从2D像素扩展到3D体素，实现了点云、三维场景的零样本通用分割，解决了从2D图像生成3D资产的核心难题，成为机器人、AR/VR、数字孪生的核心工具；
- 国产模型全面突破：中科院FastSAM2、清华SAM3-Adapter、华为盘古分割大模型、阿里通义分割模型先后发布，在视频分割、端侧部署、工业场景适配、中文语义理解等方面，实现了对SAM2、SAM3的超越；
- VLA原生SAM成为主流，字节跳动、北大联合推出融合SAM2与LLaVA的多模态大模型，在视频编辑、机器人操作场景实现SOTA性能，SAM成为自然语言指令到机器人动作执行的核心感知环节。
核心能力全面成熟：从2D静态图像，升级为图像、视频、3D点云全场景覆盖；从简单物体分割，升级为细粒度概念理解、语义分割、全景分割全任务适配；从云端部署，升级为端侧实时运行，移动端推理延迟降至8ms以内；从单一分割工具，升级为多模态大模型、具身智能的原生基础组件。

国产技术全球领跑

华为盘古分割大模型、小鹏第二代智驾SAM、比亚迪天神之眼分割模型，实现了7万级量产车的全场景规模化部署，全天气、全路况的动态目标分割与追踪能力达到全球顶尖水平；
生数科技U-ViT、商汤日日新SAM、快手可灵SAM在视频生成、视频编辑领域实现了对海外模型的追赶与部分超越，中文语义理解、多主体一致性达到全球领先水平；
宇树、智元等人形机器人厂商，基于自研的SAM变体实现了机器人的环境感知、物体分割与操作，通用能力达到全球顶尖水平；
国内厂商主导制定了多项自动驾驶、工业视觉、医疗影像领域的分割技术标准，成为全球通用分割领域的核心规则制定者。

工程化与落地能力

普惠化落地全面完成：规模以上工业企业SAM渗透率超70%，中小微企业通过轻量化模型、云服务实现了规模化应用，视觉AI领域通用分割整体渗透率突破90%；
自动驾驶领域：L3级自动驾驶车型100%采用SAM系列模型实现场景感知、障碍物分割与追踪，成为自动驾驶规模化商用的核心支撑，国产方案全球市场占有率突破60%；
具身智能领域：人形机器人、服务机器人、工业机械臂的SAM渗透率超90%，成为实现环境感知、通用操作能力的核心感知底座，国产方案主导全球市场；
全球化布局全面启动：国产SAM方案随新能源汽车、人形机器人、工业解决方案出海，落地全球30余个国家和地区，海外收入占比突破30%，成为全球智能制造、具身智能的核心方案提供商。

产业格局

全球格局中国全面领跑：中国成为全球最大的SAM应用市场、技术创新中心，国产方案国内市场占有率突破90%，全球市场份额突破60%；形成了以华为、中科院、商汤、清华、阿里为核心的产学研全链条生态，实现了从核心算法、训练框架、算力平台到行业解决方案的100%自主可控，彻底改变了海外巨头垄断计算机视觉领域的格局。

三、SAM十年核心维度演进对比表

核心维度	2015年（启蒙萌芽期）	2020年（泛化探索期）	2023年（范式革命期）	2025年（全面普及期）	十年核心质变
核心范式	CNN编码器-解码器，固定类别强监督专用分割	Transformer开放词汇分割，弱监督/零样本探索	提示驱动的零样本通用图像分割	时空统一、多模态原生的全场景通用分割	从专用任务工具，到通用AI基础组件
标注依赖	完全依赖像素级标注，单任务需百万级标注	弱监督/图像级标注，标注成本降低90%	零标注，零样本适配新场景	零标注，跨模态、跨场景通用适配	从强标注依赖，到零样本泛化
泛化能力	仅适配训练内固定类别，跨场景完全失效	开放词汇适配常见类别，罕见场景精度不足	零样本适配任意物体、任意场景，跨模态通用	零样本适配图像、视频、3D全场景，概念级理解	从单类别过拟合，到全场景通用理解
模态支持	仅支持2D静态图像	支持2D图像+简单文本提示	支持点、框、文本、掩码多提示，2D图像分割	支持图像、视频、3D点云、文本、音频全模态	从单2D图像，到全维度时空感知
部署能力	仅云端离线推理，单帧耗时数百ms	云端批量推理，工业场景试点部署	云端通用模型+轻量化端侧模型，实时推理40ms/帧	端云协同全域部署，移动端实时推理<8ms/帧	从实验室离线验证，到全场景实时落地
国产化水平	0%，完全依赖海外开源架构，纯技术跟随	>30%，专用场景国产模型落地，无核心架构创新	>50%，国产变体实现速度、场景适配超越	>90%，全栈自主可控，全球市场份额突破60%	从完全技术空白，到全球创新领跑
产业渗透率	工业场景<5%，仅安防、医疗零星试点	工业场景>20%，专用模型规模化落地	工业场景>40%，全行业快速渗透	视觉AI领域>90%，千行百业普惠化落地	从小众高端工具，到全行业标配能力
核心任务覆盖	仅语义分割、实例分割固定任务	支持开放词汇分割、全景分割	支持全类型分割任务，可提示灵活适配	支持分割、追踪、概念理解、3D重建全链路	从单一像素分类，到全场景语义理解

四、十年演进的五大核心本质转变

1. 任务本质：从固定类别的像素分类，到提示驱动的通用语义理解

十年间，SAM彻底重构了分割任务的本质：从“固定类别、人工定义的像素级分类”，升级为“提示驱动、用户意图导向的通用语义理解”。分割不再是CV领域的孤立子任务，而是成为AI理解物理世界的基础能力，从“识别像素”升级为“理解语义、响应用户意图”，完成了从“工具”到“智能组件”的本质跨越。

2. 范式本质：从一任务一模型的碎片化，到一次预训练全场景通用的基础模型范式

十年间，分割任务的开发范式彻底改变：从“每个场景、每个类别都需要单独标注、单独训练、单独部署”的碎片化模式，升级为“一次大规模预训练，全场景零样本适配，通过提示灵活调整”的基础模型范式。分割模型的开发周期从数月缩短到数分钟，标注成本降低99%以上，彻底打破了分割落地的核心瓶颈。

3. 技术本质：从CNN局部特征提取，到Transformer全局语义建模的架构统一

十年间，分割的核心技术架构完成了彻底重构：从CNN堆叠的局部特征提取，升级为Transformer驱动的全局语义建模，实现了与NLP领域的架构统一。这一转变不仅提升了分割的精度与泛化能力，更打通了视觉与语言的技术壁垒，为多模态大模型、具身智能的发展奠定了核心基础，让视觉理解与语言推理实现了深度融合。

4. 产业本质：从海外巨头全链路垄断，到国产全栈自主可控全球领跑

十年间，分割领域的全球产业格局彻底逆转：从海外机构垄断核心架构、国内厂商仅能做二次开发的跟随状态，到中美双极引领、国内在场景落地、工程化、行业适配方面实现全面领跑。国产SAM方案实现了从核心算法、训练框架到算力平台的全栈自主可控，国内市场占有率从0提升至90%以上，中国从计算机视觉领域的跟随者，成长为全球通用分割技术的创新中心。

5. 落地本质：从高端行业的小众工具，到千行百业的普惠化基础能力

十年间，SAM彻底打破了分割技术的落地门槛：从只有安防、医疗等高端行业才能使用的小众工具，需要专业算法工程师定制开发，到通过云服务、低代码平台实现普惠化应用，中小微企业、甚至个人用户都可以一键使用。分割能力从工业级场景，渗透到内容创作、日常办公、智能家居等大众场景，用户规模突破10亿，成为AI时代的基础能力。

五、现存核心挑战

细粒度与极端场景分割精度仍有短板
SAM在常见物体、常规场景中表现优异，但在小目标分割、遮挡物体、透明物体、细粒度纹理分割等极端场景中，精度仍有显著下降；医学影像、半导体晶圆检测等高精度场景，仍需要微调才能满足专业需求，零样本泛化能力仍有提升空间。
概念理解与语义对齐仍有不足
SAM3实现了概念级分割，但对复杂语义、歧义性描述、抽象概念的理解能力仍与人类有差距；中文语义、行业专业术语的对齐能力，仍需要针对特定领域优化，跨语言、跨行业的通用概念理解仍有瓶颈。
端侧部署的精度与效率平衡仍需优化
尽管轻量化SAM模型已经实现端侧实时运行，但端侧模型的分割精度、泛化能力与云端大模型仍有量级差距；端云协同的训练与推理框架仍不完善，模型压缩、量化蒸馏的工具链仍需优化，进一步降低端侧部署的门槛与成本。
可解释性与安全合规问题仍需突破
SAM的Transformer深层结构导致其决策过程仍存在黑箱问题，分割结果的可解释性不足；在自动驾驶、医疗影像等高安全要求的场景中，决策过程的可追溯性、可证明的安全性仍无法满足严格的行业合规要求，制约了其在关键领域的深度渗透。
行业标准化与生态完善仍有不足
SAM的模型选型、训练范式、部署标准仍未形成统一的行业规范，不同厂商的SAM变体兼容性差，迁移与适配成本高；面向细分行业的轻量化解决方案、低代码工具仍不完善，中小微企业的使用门槛仍较高，制约了全行业的普惠化发展。

六、未来发展趋势（2025-2030）

1. 与AGI深度原生融合，成为通用智能的核心视觉中枢

2030年前，SAM将与大语言模型、世界模型深度原生融合，形成“感知-建模-推理-决策-执行”的统一AGI架构，实现对物理世界、社会规则、人类意图的通用视觉理解与建模，成为通用人工智能的核心视觉中枢，推动AI从专用工具向通用智能体的全面跨越。

2. 4D时空与3D场景理解全面成熟，实现从像素到体素的跨越

2030年前，SAM将实现从2D图像到4D时空视频、3D点云场景的全维度覆盖，成为数字孪生、元宇宙、机器人导航的核心基础工具；实现从单帧像素分割，到动态场景的时空建模、3D环境重建的全链路能力，彻底打通虚拟与现实的视觉壁垒。

3. 端云协同全域部署全面普及，实现全场景普惠化

2030年前，“云端通用SAM大模型+端侧轻量化SAM模型”的端云协同架构将全面普及，端侧SAM可在手机、汽车、机器人、智能家居等所有智能设备上实现离线实时运行，云端大模型负责复杂推理与模型迭代，SAM将像操作系统一样，成为所有智能设备的标配视觉基础能力，实现全场景普惠化落地。

4. 可证明的安全SAM全面成熟，实现高安全场景深度渗透

2030年前，可解释、可证明的安全SAM架构将全面成熟，通过因果推理、形式化验证、安全对齐技术，实现分割决策过程的可追溯、可保证、绝对安全，满足L5级自动驾驶、航空航天、医疗、核电等关键领域的严格合规要求，实现高安全场景的深度渗透。

5. 全栈国产化体系全面主导全球市场，制定国际技术标准

2030年前，SAM将实现从核心架构、训练框架、算力平台到行业解决方案的全链路100%国产化，国产SAM方案全球市场份额突破80%；国内厂商将全面主导ISO/IEC计算机视觉、自动驾驶、工业视觉领域的国际技术标准制定，中国将成为全球通用视觉AI产业的技术创新中心与规则制定者。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

谷歌刚发的Nano Banana 2，一手深度测评，附教程

2048 AI社区

还不会部署OpenClaw？阿里云推出五种OpenClaw快速部署方案，一键拥有专属AI助理！

2048 AI社区

嵌入式AI开发-AI技术实现方法论（规则学习，机器学习，神经网络到深度学习）

在嵌入式AI开发之前，需要先了解AI技术的实现方式和基本原理。这有助于后期开发时对部署的人工智能系统有更深入的理解。如果我们现在在网站上搜索关于人工智能教程的资料，我们会搜出一大片的资料，而细看这些资料则会发现非常冗杂，包括但不限于大模型，transformer,argent等等。对于初学者会非常头疼无从下手，那么本篇专栏就会从AI的底层讲起一步一步向上，带大家理顺清楚。