Occupancy Network(占用网络) 的十年(2015–2025),是从机器人学的“概率网格”向自动驾驶“全感知范式”演进的历程。

它是感知算法的“最后一道防线”,将 3D 空间的理解从“识别物体”升维到了“感知道路几何”。


一、 核心阶段:从“网格图”到“全息空间”

1. 经典 OGM 阶段 (2015–2020) —— “机器人的地图”
  • 核心逻辑: 基于 OGM(Occupancy Grid Mapping,占用概率栅格)
  • 特征: 这在机器人领域是基础方案。主要利用激光雷达(LiDAR)探测空间是否有物体,生成 2D 或准 3D 的二值地图(占有/空闲)。
  • 局限: 此时的 Occupancy 主要是几何层面的,缺乏语义理解。它知道那里有个东西,但不知道那是什么,更无法通过纯视觉(相机)高效生成。
2. 视觉 Occupancy 萌芽与 BEV 转型 (2021–2022) —— “升维的契机”
  • 里程碑: 2022 年 Tesla AI Day 正式引入 Occupancy Network

  • 技术突破:

  • 从 2D 到 3D: 传统的 BEV(鸟瞰图)将世界压扁在 2D 平面上,丢失了高度信息。Occupancy 将世界切碎为无数个 Voxel(体素)

  • 语义注入: 给每一个体素赋予标签(如:车、路面、树木、未知物体)。

  • 意义: 解决了“异形障碍物”难题。系统不再需要先识别出它是“洒水车”或“侧翻的货车”才能避让,只要发现空间被占用,就会规划绕行。

3. 4D 全息与端到端集成 (2023–2025) —— “感知的底座”
  • 2025 现状:
  • B.O.T 架构 (BEV + Occupancy + Transformer): 成为行业标配(如极越、小鹏、华为、理想)。
  • 时空 4D 化: 现在的 Occupancy 不仅是静态的 3D 块,还带有了 Flow(运动流) 属性,能感知物体运动的趋势。
  • 端到端深度耦合: Occupancy 不再是单独的输出,而是直接作为“世界模型”的一部分,输入给端到端大模型。

二、 核心技术维度对比 (2015 vs 2025)

维度 2015 (传统栅格) 2025 (AI 占用网络) 核心跨越点
基础单元 粗糙的 2D 栅格 精细的 3D 体素 (Voxel) 实现了对物理世界的三维几何重构
感知源 强依赖 LiDAR 纯视觉 (Vision-only) 或 多模态融合 脱离了高昂硬件对 3D 建模的束缚
语义能力 无 (仅识别占用) 精细语义标签 (含长尾障碍物) 解决了无法识别“垃圾桶、路桩”的问题
时间维度 静态快照 4D 时序流 (带速度与预测) 赋予了系统对动态环境的物理常识
实时性 毫秒级 (计算量小) 亚毫秒级 (NPU/GPU 高度加速) 算力与算法优化支撑了高分辨率显示

三、 2025 年的技术巅峰:通用障碍物与内核监控

在 2025 年,Occupancy Network 已经成为了智驾系统的**“物理常识引擎”**:

  1. 通用障碍物识别 (General Obstacles):
    2025 年的 Occupancy 模型解决了自动驾驶最头疼的“白名单以外”物体。无论是路边倒下的共享单车、垂下的树枝,还是散落的石块,Occupancy 都能像人的本能一样发现“那里不空”,从而实现全场景避障
  2. eBPF 内核级感知流审计:
    由于 Occupancy 推理涉及庞大的体素网格计算,2025 年的架构引入了 eBPF 监控
  • 性能卡口: eBPF 在内核层监控感知链路。如果由于复杂场景(如暴雨中的十字路口)导致 Occupancy 的体素渲染出现丢帧或延迟超过 ,eBPF 会即刻触发动态分级降采样,优先保障车道线和近距目标的“占据”检测。
  1. 多模态融合 Occ (M-Occ):
    2025 年的量产方案实现了摄像头、4D 毫米波雷达和激光雷达的特征级 Occupancy 融合。雷达的穿透力与视觉的高分辨率在体素层面完美结合,使系统在浓雾或强光下依然能维持厘米级的建模精度。

四、 总结:从“看见物体”到“感悟空间”

过去十年的演进,是将感知从**“给物体贴标签”变成了“重建周围的物理场”**。

  • 2015 年: 机器人想的是“这里有一个方块,我别撞上它”。
  • 2025 年: 车辆想的是“前方 5 米处的空间正在被一个具有语义特征的物理实体占据,其运动流向为左前方,我应规划一条安全曲线”。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐