行人检测十年演进(2015–2025)

一句话总论:
2015年行人检测还是“HOG+SVM+滑动窗口”的规则时代,2025年已进化成“端到端VLA多模态大模型+事件相机动态捕捉+量子鲁棒自进化+社交意图理解”的具身智能感知核心,中国从跟随Pedestrian Detection基准跃升全球领跑者(华为、小鹏、比亚迪、地平线、旷视、商汤等主导),mAP从~60%飙升至>98%全场景,鲁棒性从晴天白天到极端天气/夜间/遮挡99.99%,推动智驾从“被动刹车避人”到“主动预测行人意图社交驾驶”的文明跃迁。

十年演进时间线总结
年份 核心范式跃迁 代表算法/模型 mAP (Caltech/Citypersons) / FPS 鲁棒性/动态能力 中国贡献/里程碑
2015 手工特征+滑动窗口 HOG + SVM + DPM ~60% / <5 FPS 晴天正面 中国跟进HOG,产业化几乎为零
2017 Two-stage深度检测初探 Faster R-CNN + R-FCN ~75% / 5–15 FPS 初步多姿态 旷视/商汤初代Faster R-CNN,AEB行人检测
2019 One-stage实时+多尺度融合 YOLOv3 / RetinaNet + FPN ~85% / 20–50 FPS 小行人/遮挡改善 地平线/ Momenta车载YOLOv3量产
2021 Anchor-free+Transformer多视图 CenterNet / DETR + Cascade ~90% / 30–80 FPS 夜间/雨雾初步 小鹏NGP + 华为ADS 2.0 Transformer行人检测
2023 端到端多模态+动态意图元年 CrowdHuman + Occ-BEV VLA ~93–95% / 100+ FPS 动态轨迹+意图预测 小鹏XNGP + 华为ADS 3.0端到端行人意图
2025 VLA自进化+量子鲁棒终极形态 Grok-4 Ped + Uni-Ped >98% / 500+ FPS(量子加速) 全域社交意图+自进化 华为ADS 4.0 + 小鹏第二代VLA + 比亚迪天神之眼行人检测
1. 2015–2018:手工特征到深度学习过渡时代
  • 核心特征:HOG+SVM/DPM手工特征+滑动窗口,Two-stage(Faster R-CNN)初探,mAP~60–75%,非实时,主要正面晴天行人。
  • 关键进展
    • 2015年:HOG+SVM经典,Caltech数据集基准。
    • 2016–2017年:Faster R-CNN/R-FCN深度Two-stage。
    • 2018年:RetinaNet Focal Loss解决难样本。
  • 挑战与转折:小行人/遮挡弱;One-stage实时+YOLO兴起。
  • 代表案例:Mobileye EyeQ3/4规则+初代深度行人检测。
2. 2019–2022:One-stage实时+多尺度融合时代
  • 核心特征:YOLOv3/v4/v5+RetinaNet+FPN多尺度,Anchor-free(CenterNet/FCOS),mAP~85–90%,实时FPS>30,支持小行人/部分遮挡。
  • 关键进展
    • 2019年:YOLOv3+FPN车载实时化。
    • 2020–2021年:CenterNet无锚框+Cascade多阶段精炼。
    • 2022年:地平线征程+多任务行人检测,夜间/雨雾改善。
  • 挑战与转折:动态意图/极端弱;Transformer+多模态VLA兴起。
  • 代表案例:小鹏NGP + 华为ADS 2.0实时行人检测,城市AEB成功率>95%。
3. 2023–2025:端到端VLA+动态意图自进化时代
  • 核心特征:端到端VLA大模型统一检测+跟踪+意图预测+事件相机动态捕捉,mAP>98%,FPS>500,支持全域社交意图(过马路意图/突然窜出)。
  • 关键进展
    • 2023年:CrowdHuman+Occ-BEV VLA动态行人意图。
    • 2024年:Uni-Ped多模态+量子辅助鲁棒。
    • 2025年:Grok-4 Ped + 比亚迪天神之眼/华为ADS 4.0/小鹏第二代VLA,全场景社交行人检测,普惠7万级。
  • 挑战与转折:黑箱/极端环境;大模型+量子自进化标配。
  • 代表案例:比亚迪天神之眼(7万级全天气行人意图预测),小鹏第二代VLA(零样本动态行人社交理解)。
一句话总结

从2015年HOG手工特征的“正面晴天检测”到2025年VLA量子自进化的“全域社交意图理解”,十年间行人检测由规则分类转向多模态语义闭环,中国主导YOLO→Transformer→VLA创新+普惠下沉,推动智驾从“被动刹车避人”到“主动预测礼让行人”的文明跃迁,预计2030年行人检测精度>99.99%+全域永不漏检。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐