行人检测十年演进（2015–2025）

行人检测十年演进（2015–2025）摘要 2015年行人检测依赖传统HOG+SVM方法，mAP约60%，仅适用于晴天场景。2017年深度学习兴起，Faster R-CNN提升至75%，中国厂商开始跟进。2019年YOLO系列实现实时检测（20–50 FPS），多尺度融合改善遮挡问题。2021年Transformer引入，mAP突破90%，夜间检测能力增强。2023年端到端多模态大模型（VLA）实

jzwspace

600人浏览 · 2026-01-01 20:26:42

jzwspace · 2026-01-01 20:26:42 发布

行人检测十年演进（2015–2025）

一句话总论：
2015年行人检测还是“HOG+SVM+滑动窗口”的规则时代，2025年已进化成“端到端VLA多模态大模型+事件相机动态捕捉+量子鲁棒自进化+社交意图理解”的具身智能感知核心，中国从跟随Pedestrian Detection基准跃升全球领跑者（华为、小鹏、比亚迪、地平线、旷视、商汤等主导），mAP从~60%飙升至>98%全场景，鲁棒性从晴天白天到极端天气/夜间/遮挡99.99%，推动智驾从“被动刹车避人”到“主动预测行人意图社交驾驶”的文明跃迁。

十年演进时间线总结

年份	核心范式跃迁	代表算法/模型	mAP (Caltech/Citypersons) / FPS	鲁棒性/动态能力	中国贡献/里程碑
2015	手工特征+滑动窗口	HOG + SVM + DPM	~60% / <5 FPS	晴天正面	中国跟进HOG，产业化几乎为零
2017	Two-stage深度检测初探	Faster R-CNN + R-FCN	~75% / 5–15 FPS	初步多姿态	旷视/商汤初代Faster R-CNN，AEB行人检测
2019	One-stage实时+多尺度融合	YOLOv3 / RetinaNet + FPN	~85% / 20–50 FPS	小行人/遮挡改善	地平线/ Momenta车载YOLOv3量产
2021	Anchor-free+Transformer多视图	CenterNet / DETR + Cascade	~90% / 30–80 FPS	夜间/雨雾初步	小鹏NGP + 华为ADS 2.0 Transformer行人检测
2023	端到端多模态+动态意图元年	CrowdHuman + Occ-BEV VLA	~93–95% / 100+ FPS	动态轨迹+意图预测	小鹏XNGP + 华为ADS 3.0端到端行人意图
2025	VLA自进化+量子鲁棒终极形态	Grok-4 Ped + Uni-Ped	>98% / 500+ FPS（量子加速）	全域社交意图+自进化	华为ADS 4.0 + 小鹏第二代VLA + 比亚迪天神之眼行人检测

1. 2015–2018：手工特征到深度学习过渡时代

核心特征：HOG+SVM/DPM手工特征+滑动窗口，Two-stage（Faster R-CNN）初探，mAP~60–75%，非实时，主要正面晴天行人。
关键进展：
- 2015年：HOG+SVM经典，Caltech数据集基准。
- 2016–2017年：Faster R-CNN/R-FCN深度Two-stage。
- 2018年：RetinaNet Focal Loss解决难样本。
挑战与转折：小行人/遮挡弱；One-stage实时+YOLO兴起。
代表案例：Mobileye EyeQ3/4规则+初代深度行人检测。

2. 2019–2022：One-stage实时+多尺度融合时代

核心特征：YOLOv3/v4/v5+RetinaNet+FPN多尺度，Anchor-free（CenterNet/FCOS），mAP~85–90%，实时FPS>30，支持小行人/部分遮挡。
关键进展：
- 2019年：YOLOv3+FPN车载实时化。
- 2020–2021年：CenterNet无锚框+Cascade多阶段精炼。
- 2022年：地平线征程+多任务行人检测，夜间/雨雾改善。
挑战与转折：动态意图/极端弱；Transformer+多模态VLA兴起。
代表案例：小鹏NGP + 华为ADS 2.0实时行人检测，城市AEB成功率>95%。

3. 2023–2025：端到端VLA+动态意图自进化时代

核心特征：端到端VLA大模型统一检测+跟踪+意图预测+事件相机动态捕捉，mAP>98%，FPS>500，支持全域社交意图（过马路意图/突然窜出）。
关键进展：
- 2023年：CrowdHuman+Occ-BEV VLA动态行人意图。
- 2024年：Uni-Ped多模态+量子辅助鲁棒。
- 2025年：Grok-4 Ped + 比亚迪天神之眼/华为ADS 4.0/小鹏第二代VLA，全场景社交行人检测，普惠7万级。
挑战与转折：黑箱/极端环境；大模型+量子自进化标配。
代表案例：比亚迪天神之眼（7万级全天气行人意图预测），小鹏第二代VLA（零样本动态行人社交理解）。

一句话总结

从2015年HOG手工特征的“正面晴天检测”到2025年VLA量子自进化的“全域社交意图理解”，十年间行人检测由规则分类转向多模态语义闭环，中国主导YOLO→Transformer→VLA创新+普惠下沉，推动智驾从“被动刹车避人”到“主动预测礼让行人”的文明跃迁，预计2030年行人检测精度>99.99%+全域永不漏检。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。