自动驾驶中的传感器技术84——Sensor Fusion（7）

混合融合架构是L2++至L4级自动驾驶的主流方案，通过多层次灵活融合传感器数据。该系统包含三条并行处理主线：主感知流（BEV特征融合）、定位流（GNSS/IMU信号融合）和安全流（雷达/超声波后融合）。处理流程分为四个阶段：原始信号时空对齐、BEV深度特征融合、定位修正反馈和安全校验兜底。该架构采用AI主感知与传统传感器校验相结合的方式，既发挥深度学习优势又确保系统安全，通过ROI融合等特殊模式提

Godspeed Zhao

806人浏览 · 2025-12-26 09:38:43

Godspeed Zhao · 2025-12-26 09:38:43 发布

混合融合

混合跨层级融合（Hybrid / Cascaded / Multi-Level Fusion）是当前 L2++ 到 L4 级自动驾驶量产方案（如特斯拉 FSD、华为 ADS、小鹏 XNGP）中最主流、最务实的架构。

它不拘泥于单一的“前融合”或“后融合”，而是根据传感器的特性和算力限制，在数据流的不同阶段灵活地进行多次融合。

这种架构通常是一个串行与并行结合的复杂图网络。以下是其典型的系统架构解析：

1. 核心架构逻辑

混合融合通常分为三条主线并行处理，最后汇聚：

主感知流（Deep Fusion）：以 BEV（鸟瞰图）为核心，进行 Camera + LiDAR 的特征级融合。
定位流（Signal Fusion）： GNSS + IMU 的原始信号级融合，并接受感知流的反馈。
安全流（Safety Check）： Radar + Ultrasonic 的后融合，作为系统的“安全兜底”。

2. 详细的跨层级融合步骤

阶段一：时空对齐与原始信号增强（Raw Data Level）

GNSS + IMU (紧耦合):
在最底层进行 Raw Data 融合，输出高频的 Pose（位姿）预测。
LiDAR 去畸变:
利用 IMU 的高频 Pose 数据，修正 LiDAR 点云在扫描过程中的运动畸变。
结果: 产生统一的时间戳和精确的自车运动状态。

阶段二：深度特征融合 —— 主感知引擎（Feature Level）

这是目前最先进的 BEV Transformer 架构所在层级。

输入:
Camera: 多路图像特征。
LiDAR: 经过体素化（Voxelization）的点云特征。
Radar: 部分方案（如华为）会将 4D 雷达的点云特征也输入进来。

融合过程:

空间变换: 将 Camera 的透视视角的特征图，和 LiDAR 的 3D 特征图，都投影到统一的 BEV 空间。
Cross-Attention (交叉注意力): 神经网络自动学习图像纹理和点云几何的对应关系。
时序融合 (Temporal Fusion): 将上一帧（t−1t−1）的 BEV 特征与当前帧（tt）融合，形成 4D 时空特征（增加时间维）。
输出: 3D 目标检测框、车道线拓扑、可行驶区域（Occupancy）。

阶段三：定位修正（Object + Signal Level）

这是一个典型的跨层级反馈回路。

输入:
阶段一输出的 GNSS/IMU 粗略定位（Signal Level）。
阶段二输出的车道线/地标识别结果（Object Level）。
融合:
高精地图匹配 (Map Matching): 将视觉识别到的车道线与高精地图进行对比。
图优化 (Graph Optimization): 利用视觉观测作为约束条件，修正 GNSS/IMU 的漂移。
输出: 厘米级的全局绝对定位。

阶段四：安全兜底与校验（Object + Cluster Level）

神经网络虽然强大，但有“幻觉”风险。这一步是传统的后融合，用于保命。

场景: AEB（自动紧急制动）决策。
输入:
阶段二输出的 AI 感知目标（Object List，比如“前面无车”）。
毫米波雷达的原始聚类点（Cluster List，比如“前方 50 米有强反射信号”）。
融合逻辑 (Gating Logic):
如果 AI 说没车，但雷达检测到持续的、高信噪比的障碍物回波。
强制覆盖: 系统判定 AI 失效（可能是白墙、翻倒的白色货车），采信雷达数据，触发刹车。
超声波融合:
在低速泊车时，将超声波的最近障碍物距离直接“切入”控制逻辑，无论视觉是否看到东西，距离小于 30cm 必须刹停。

3. 特殊的混合融合模式：ROI 级融合 (ROI Fusion)

介于特征级和目标级之间，常用于远距离检测。

LiDAR 提案: 先用 LiDAR 检测出远处有个物体（位置准，但不知道是什么），生成一个 3D ROI (感兴趣区域)。
图像裁剪: 将这个 3D ROI 投影回 2D 图像，裁剪出对应的一小块图片。
视觉分类: 将这一小块图片送入专门的 CNN 进行分类（是石头还是人？）。
优势: 省算力（不用全图处理），且解决了 LiDAR 缺乏语义信息的问题。

4. 不同融合的对比

融合层级	优点	缺点	混合架构中的角色
raw data	信息无损，精度最高	带宽算力地狱，极难工程化	仅用于 GNSS/IMU 定位
Feature (BEV)	深度学习能力强，适应恶劣天气	这是一个“黑盒”，不可解释，有幻觉风险	用于主感知 (画框、车道线)
Object (Track)	逻辑清晰，代码可解释，算力低	丢失原始信息，依赖单传感器性能	用于 AEB 安全兜底和多源校验

5. 总结：一个完整的混合融合数据流

Start: 所有传感器采集数据。
Signal Fusion: IMU+GNSS 紧耦合，算出车在哪里（PegoPego）。
Pre-process: 用 PegoPego 把 LiDAR 点云拉直，把 Radar 坐标对齐。
Deep Fusion (AI): 将 Camera 图和 LiDAR 点云扔进 BEV 网络，吐出 "AI 目标列表"。
Safety Gate (Logic): 拿 Radar 的原始回波去校验 "AI 目标列表"。如果 Radar 发现 AI 漏检了致命障碍物 -> 报警/刹车。如果 Radar 确认 AI 检测准确 -> 输出最终结果。
End: 规划控制模块接收最终的环境模型。

这种**“AI 负责画出丰富世界，传统雷达负责底线安全，IMU 负责连接时空”**的混合架构，是目前自动驾驶技术的终极形态。