行人检测十年演进(2015–2025)
行人检测十年演进(2015–2025)摘要 2015年行人检测依赖传统HOG+SVM方法,mAP约60%,仅适用于晴天场景。2017年深度学习兴起,Faster R-CNN提升至75%,中国厂商开始跟进。2019年YOLO系列实现实时检测(20–50 FPS),多尺度融合改善遮挡问题。2021年Transformer引入,mAP突破90%,夜间检测能力增强。2023年端到端多模态大模型(VLA)实
·
行人检测十年演进(2015–2025)
一句话总论:
2015年行人检测还是“HOG+SVM+滑动窗口”的规则时代,2025年已进化成“端到端VLA多模态大模型+事件相机动态捕捉+量子鲁棒自进化+社交意图理解”的具身智能感知核心,中国从跟随Pedestrian Detection基准跃升全球领跑者(华为、小鹏、比亚迪、地平线、旷视、商汤等主导),mAP从~60%飙升至>98%全场景,鲁棒性从晴天白天到极端天气/夜间/遮挡99.99%,推动智驾从“被动刹车避人”到“主动预测行人意图社交驾驶”的文明跃迁。
十年演进时间线总结
| 年份 | 核心范式跃迁 | 代表算法/模型 | mAP (Caltech/Citypersons) / FPS | 鲁棒性/动态能力 | 中国贡献/里程碑 |
|---|---|---|---|---|---|
| 2015 | 手工特征+滑动窗口 | HOG + SVM + DPM | ~60% / <5 FPS | 晴天正面 | 中国跟进HOG,产业化几乎为零 |
| 2017 | Two-stage深度检测初探 | Faster R-CNN + R-FCN | ~75% / 5–15 FPS | 初步多姿态 | 旷视/商汤初代Faster R-CNN,AEB行人检测 |
| 2019 | One-stage实时+多尺度融合 | YOLOv3 / RetinaNet + FPN | ~85% / 20–50 FPS | 小行人/遮挡改善 | 地平线/ Momenta车载YOLOv3量产 |
| 2021 | Anchor-free+Transformer多视图 | CenterNet / DETR + Cascade | ~90% / 30–80 FPS | 夜间/雨雾初步 | 小鹏NGP + 华为ADS 2.0 Transformer行人检测 |
| 2023 | 端到端多模态+动态意图元年 | CrowdHuman + Occ-BEV VLA | ~93–95% / 100+ FPS | 动态轨迹+意图预测 | 小鹏XNGP + 华为ADS 3.0端到端行人意图 |
| 2025 | VLA自进化+量子鲁棒终极形态 | Grok-4 Ped + Uni-Ped | >98% / 500+ FPS(量子加速) | 全域社交意图+自进化 | 华为ADS 4.0 + 小鹏第二代VLA + 比亚迪天神之眼行人检测 |
1. 2015–2018:手工特征到深度学习过渡时代
- 核心特征:HOG+SVM/DPM手工特征+滑动窗口,Two-stage(Faster R-CNN)初探,mAP~60–75%,非实时,主要正面晴天行人。
- 关键进展:
- 2015年:HOG+SVM经典,Caltech数据集基准。
- 2016–2017年:Faster R-CNN/R-FCN深度Two-stage。
- 2018年:RetinaNet Focal Loss解决难样本。
- 挑战与转折:小行人/遮挡弱;One-stage实时+YOLO兴起。
- 代表案例:Mobileye EyeQ3/4规则+初代深度行人检测。
2. 2019–2022:One-stage实时+多尺度融合时代
- 核心特征:YOLOv3/v4/v5+RetinaNet+FPN多尺度,Anchor-free(CenterNet/FCOS),mAP~85–90%,实时FPS>30,支持小行人/部分遮挡。
- 关键进展:
- 2019年:YOLOv3+FPN车载实时化。
- 2020–2021年:CenterNet无锚框+Cascade多阶段精炼。
- 2022年:地平线征程+多任务行人检测,夜间/雨雾改善。
- 挑战与转折:动态意图/极端弱;Transformer+多模态VLA兴起。
- 代表案例:小鹏NGP + 华为ADS 2.0实时行人检测,城市AEB成功率>95%。
3. 2023–2025:端到端VLA+动态意图自进化时代
- 核心特征:端到端VLA大模型统一检测+跟踪+意图预测+事件相机动态捕捉,mAP>98%,FPS>500,支持全域社交意图(过马路意图/突然窜出)。
- 关键进展:
- 2023年:CrowdHuman+Occ-BEV VLA动态行人意图。
- 2024年:Uni-Ped多模态+量子辅助鲁棒。
- 2025年:Grok-4 Ped + 比亚迪天神之眼/华为ADS 4.0/小鹏第二代VLA,全场景社交行人检测,普惠7万级。
- 挑战与转折:黑箱/极端环境;大模型+量子自进化标配。
- 代表案例:比亚迪天神之眼(7万级全天气行人意图预测),小鹏第二代VLA(零样本动态行人社交理解)。
一句话总结
从2015年HOG手工特征的“正面晴天检测”到2025年VLA量子自进化的“全域社交意图理解”,十年间行人检测由规则分类转向多模态语义闭环,中国主导YOLO→Transformer→VLA创新+普惠下沉,推动智驾从“被动刹车避人”到“主动预测礼让行人”的文明跃迁,预计2030年行人检测精度>99.99%+全域永不漏检。
数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。
更多推荐



所有评论(0)