适用平台:RK3562 / RV1106G3(轻量 Linux / 无 GUI 场景)。
目标:在成本可控前提下实现视觉识别障碍(避障),并给出可落地的人天与里程碑算力/内存预算量化与部署方案


背景与目标

倾向 RK3562,同时关注成本进度。给出两条工程化路径:

  • 路线 A:完全不加外设(单目)
    仅用单摄实现“障碍检测 +(可选)自由空间/单目深度”,端上 ≥15 FPS。

  • 路线 B:允许加双目(如 OAK-D / ZED 深度相机)
    距离由硬件深度给出,主控只做轻量检测与融合,端上 ≥25 FPS,稳定性更强。


方案总览与框图

路线 A:单目(检测 + 分割/深度,可选)

flowchart LR
    CAM[Camera (V4L2)] --> ISP[ISP/AE-AWB 调参]
    ISP --> PRE[预处理(Resize/Normalize, NEON)]
    PRE --> NPU[NPU 推理\n(检测 YOLOv8n/PP-PicoDet-S;\n可选 分割 PIDNet-S / 深度 FastDepth)]
    NPU --> POST[后处理(NMS/阈值/形态学)]
    POST --> FUSION[策略与跟踪(ByteTrack/OC-SORT)]
    FUSION --> DECIDE[障碍判定/距离估计\n(可选单目深度或几何近似)]
    DECIDE --> CTRL[控制/告警/上报]

特点:不依赖额外硬件,成本最低;在复杂光照/质感场景下,需更多数据与阈值调优。


路线 B:双目/深度相机(检测 + 深度融合)

flowchart LR
    Dcam[OAK-D / ZED] -->|RGB + Depth/Confidence| USB[USB3 流]
    USB --> SYNC[帧同步/时间戳对齐]
    SYNC --> PRE[预处理(Resize/Normalize)]
    PRE --> DET[NPU 推理: 轻量检测 (YOLOv8n/PP-PicoDet-S)]
    DET --> GATE[深度门控融合\nmean/percentile depth in bbox]
    GATE --> TRACK[跟踪与稳定(ByteTrack)]
    TRACK --> DECIDE[障碍判定/告警策略]
    DECIDE --> CTRL[控制/上报/记录]

特点:距离更可靠,阈值直观;整体人天更少、上线更快。USB 深度相机可把深度计算卸载到相机侧


商业算法/方案供应商(优先落地)

供应商 可交付能力 部署形态 适配 RK/RV 备注
旷视 Megvii 目标检测/分割/自由空间,定制化 边缘 SDK/私有化 可做 NCNN/MNN/RKNN 适配
商汤 SenseTime 检测/分割/感知套件 边缘 SDK 行业落地多,项目推进成熟
极视角 Extreme Vision 算法集市+定制 SDK/源码/服务 快速比稿,嵌入式经验多
海康机器人 / 大华机器视觉 工业相机+算法套件 边缘 若可换镜头/光源,稳定性高
Ultralytics(YOLO) YOLOv8/v10 商业支持 源码/服务 迁移到 RKNN/NCNN 最顺滑
Luxonis(OAK-D/DepthAI) 双目+深度一体化 外设+SDK 允许加外设时,B 线最佳
Stereolabs ZED 双目深度/跟踪 外设+SDK 需要 USB3;深度稳定
NVIDIA Isaac (ROS) 机器人感知/避障栈 Jetson 若能切 Jetson,端到端最快

若坚持 RK3562 / RV1106:优先 极视角/旷视/商汤/Ultralytics;允许外设时优先 OAK-D


开源模型清单(可在 RKNN/NCNN/TFLite/MNN 上裁剪)

检测(核心):YOLOv8n / YOLOv10n / PP-YOLOE-S / NanoDet-Plus / PP-PicoDet-S
自由空间分割(可行域):PIDNet-S / BiSeNetV2 / Fast-SCNN / DDRNet-23-slim / SegFormer-B0
单目深度(可选):FastDepth / DepthAnything v2-small(蒸馏/裁剪)/ MiDaS-small
跟踪:ByteTrack / BoT-SORT / OC-SORT
开放类目(按需云端):GroundingDINO-T / OWL-ViT-Tiny / YOLO-World-S(可配 SAM/SAM2)


人天估算与里程碑

路线 A:单目(完全不加外设)

里程碑 产出 人天
M0 需求冻结 指标&数据方案 2
M1 公共数据基线 轻量检测基线 Demo 4
M2 采集/标注 3–5 类典型场景数据与清洗 4
M3 训练/蒸馏 检测 ±(分割/深度) 6
M4 转换/量化 ONNX→RKNN/NCNN,INT8 5
M5 端到端集成 V4L2/GStreamer、零拷贝、渲染 6
M6 性能调优 并行流水线/功耗/冷启动 6
M7 场测回归 A/B 测试与参数表 5
M8 交付 文档+报告 2
合计:≈ 40 PD(单人约 8 周);有现成数据/SDK 可降至 30–35 PD(预留 10–20% 缓冲)。

路线 B:双目/深度相机(推荐)

里程碑 产出 人天
M0 需求/选型 FOV/基线/近距能力 2
M1 相机集成 深度/置信度取流+标定验证 3
M2 检测基线 轻量检测 Demo(RKNN/NCNN) 4
M3 融合门控 深度阈值与检测框融合 4
M4 量化优化 INT8 转换与流水线并行 4
M5 场测参数表 室内/室外/逆光/暗光回归 5
M6 交付 集成文档与报告 2
合计:≈ 24 PD(单人 ~5 周);若加 App/回传/OTA,再加 6–10 PD。

RK3562 / RV1106G3 的算力与内存预算

以 640×384 输入、INT8 推理为例(供量级评估)

子任务 代表模型 等效算子量(Gops/帧) 端侧吞吐(RV1106 ≈0.5TOPS / RK3562*)
检测 YOLOv8n / PP-PicoDet-S / NanoDet-Plus 5–6 RV1106:20–30 FPS;RK3562 无 NPU:5–10 FPS(320×320)/ 有 0.5–1.0TOPS:15–35 FPS
自由空间分割(可选) PIDNet-S / BiSeNetV2 5–7 RV1106 合并后 13–20 FPS(与检测并行)
单目深度(可选) FastDepth / DepthAnything-S(蒸馏) 3–5 建议隔帧或降分辨率运行
运行内存 模型+中间张量 80–180 MB(建议 ≥512 MB RAM)

* RK3562 料号差异:若无 NPU,务必降到 320×320 + 极轻模型;有 0.5–1.0 TOPS NPU 时与 RV1106 相近或更强。


量化与部署策略

  • 量化主线INT8 PTQ(每通道对称),校准 500–1,000 张覆盖典型亮度/材质/距离。

  • 精度回收:mAP/IoU 降幅 >1.5–2.0% 时,对检测头/解码层QAT 1–2 epoch 微调。

  • 工具链:PyTorch → ONNX(静态 shape) → rknn-toolkit2;CPU 备选 NCNN;必要时 MNN/TFLite。

  • 算子规约:避免动态 reshape 和稀有激活;SiLU 可在导出时使用 Hard-SiLU;NMS 放 ARM

  • 流水线:Camera(V4L2) → ISP → 预处理(NEON) → NPU → NMS/策略 → 叠加渲染;双缓冲/环形队列并行。

  • B 线融合if mean(depth[bbox]) < T or perc(depth<T) > p% → 障碍;近距(<0.4–0.6 m)强门控;时间戳对齐允许 1–2 帧错位。


验收指标(建议)

  • 实时性:A 线 ≥15 FPS;B 线 ≥25 FPS;端到端延迟 ≤120 ms。

  • 精度:mAP50(障碍类)≥0.60;自由空间 IoU ≥0.80(A 线);深度门控误报 ≤2%(B 线)。

  • 稳健性:逆光/低照/反射/雨雾/阴影/遮挡 6 类工况通过回归;掉帧恢复 <1 s。

  • 资源:常驻内存 ≤200 MB;CPU ≤120%(双核计);NPU 利用 ≥35%。


风险与建议

  1. 料号确认(RK3562 是否带 NPU)直接决定 A 线可行性与分辨率上限。

  2. 数据与标注是单目方案成败关键;首轮 3–5k 足以得到可用模型。

  3. 工程优先级:先 检测达标,分割/单目深度作为增强项渐进上线;允许外设时优先 B 线

  4. 功耗/温升:连续 NPU 满负载需评估热设计,A/B 线都建议做隔帧/自适应分辨率策略。


附:首版模型与部署清单(建议组合)

任务 路线 A(单目) 路线 B(双目) 量化
检测 YOLOv8n / PP-PicoDet-S / NanoDet-Plus 同左 INT8 PTQ(必要时局部 QAT)
自由空间 PIDNet-S / YOLOv8-seg-n(简化) INT8 PTQ(二值 mask)
深度 FastDepth / DepthAnything-S(低频) 外设深度(OAK-D / ZED) INT8(A 线可选)
跟踪 ByteTrack / OC-SORT 同左 FP16/FP32

结语

  • 最快上线路线 B(双目) + 轻量检测,24 PD 左右即可有可演示、可量产迁移的版本。

  • 成本最优路线 A(单目),但需更强的数据与调参投入,建议预留 ≥40 PD。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐