小鹏汽车在 VLA(视觉 - 语言 - 动作)算法领域的最新进展,集中体现在其全场景 VLA 系统的量产落地、云端大模型蒸馏技术突破,以及自研芯片与算法的深度协同上。以下是基于 2025 年 9 月最新信息的综合解析:

一、全场景 VLA 系统量产落地


小鹏汽车于 2025 年 9 月完成了G7 Ultra 车型的全场景 VLA 系统首次 OTA 全量推送,标志着其 VLA 技术从实验室走向规模化应用。该系统整合了视觉感知、语言推理与动作生成能力,核心功能包括:

  1. 专家级风险预判
    在无保护转向、盲区路口等复杂场景中,VLA 通过时空推理提前规划防御性策略。例如,系统可预判对向车辆可能的抢道行为,提前调整车速并预留安全距离,实现 “无感避险”。
  2. 行业首创人机共驾模式
    当 NGP(导航辅助驾驶)激活且时速低于 130km/h 时,驾驶员可通过轻转方向盘或踩加速踏板介入驾驶。系统在驾驶员控车时退为观察态,松手 / 松油门后 0.5 秒内无缝恢复 NGP,支持低速跟车、匝道汇入等场景的灵活协作。
  3. 车位到车位记忆泊车
    支持任意车位实时记录与停车场 3D 建模,车辆可自动泊入非标准车位(如斜列式车位、断头路车位),识别精度达 ±15cm,支持斜角≤45° 的非规则车位。
  4. 主动安全强化
    AES 自动紧急转向避让功能在紧急碰撞危险且制动空间不足时,可自动发起转向避险并减速,结合激光雷达与视觉融合感知,系统对异形障碍物(如倒地的外卖箱)的识别准确率较传统方案提升 30%。

二、云端大模型蒸馏与车端部署


小鹏采用云端 720 亿参数基座模型 + 车端蒸馏模型的混合架构,这是其 VLA 技术的核心竞争力:

  1. 云端训练与车端部署
    云端基座模型基于 2000 万 Clips 视频数据训练(年底将扩至 2 亿 Clips),通过蒸馏技术将核心能力压缩至车端模型。例如,车端模型参数规模虽仅为云端的 1/35,但仍能保留 90% 以上的推理能力。
  2. 自研图灵芯片的算力支撑
    G7 Ultra 搭载 3 颗自研图灵 AI 芯片,其中两颗用于智驾 VLA 系统,一颗用于座舱 VLM(视觉 - 语言模型),整车有效算力达 2250TOPS,支持车端大模型实时运行。例如,系统可在 20ms 内完成从视觉输入到动作生成的全流程,较传统方案提速 7 倍。
  3. Token 压缩技术突破
    与北京大学联合研发的 FastDriveVLA 框架,通过基于图像复原的 token 剪枝技术,将视觉 token 数量从 3249 条压缩至 812 条,FLOPs 降低 7.5 倍,同时保持碰撞率等关键指标优于未剪枝基线。该技术已在 CVPR 2025 上公开,成为行业首个实现 “降本增效” 的 VLA 优化方案。

三、智能座舱与跨模态交互


小鹏 VLA 算法与 VLM(视觉 - 语言模型)深度融合,重构了智能座舱交互体验:

  1. AR-HUD 创新功能
    • 路怒情绪互动:在堵车、加塞等场景中,通过随机触发 AR 动画(如爱心、笑脸、烟花)缓解驾驶员情绪。
    • 自适应调节:通过 DMS 摄像头识别驾驶员坐姿,自动校准 AR-HUD 成像高度,确保信息显示清晰且不遮挡视线。

  2. 语音交互升级
    VLM 大模型支持多轮对话与上下文理解,例如用户可连续指令 “打开空调”“调至 24 度”“切换为内循环”,系统能精准执行并反馈状态。语音控车响应速度较上一代提升 40%,支持方言识别与多模态指令(如 “导航到最近的充电站并预约充电”)。
  3. 隐私安全设计
    OMS(座舱感应系统)支持远程查看宠物状态,但仅车主有权限访问,且配备物理盖板防止隐私泄露。

四、年底跨代更新与行业竞争


小鹏计划于 2025 年底对 Ultra 版车型进行 VLA 跨代更新,核心目标是实现十倍于现役智驾系统的体验跃升

  1. 技术升级方向
    • 多模态大模型:结合激光雷达点云、毫米波雷达时序数据与视觉信息,提升对夜间、雨雾等极端环境的感知鲁棒性。
    • 长时序推理:通过自回归模型推演 5 秒后的多帧场景,预判施工路段、潮汐车道等长尾场景。
    • 动作精细化生成:采用扩散模型生成连续动作序列,优化机械臂(如充电机器人)与车辆的协同操作。

  2. 行业竞争态势
    随着华为乾昆 ADS 4.0、理想 VLM 司机大模型、蔚来 NWM 世界模型等竞品的下半年推送,小鹏的 “十倍体验” 宣言面临挑战。其技术负责人强调,图灵芯片的超高算力与云端大模型的持续迭代,是支撑 VLA 性能跃迁的关键。

五、技术路线与生态布局


小鹏 VLA 技术的独特性体现在混合架构与全栈自研

  1. 端到端与符号推理结合
    不同于特斯拉 FSD 的纯端到端架构,小鹏采用 “端到端 + 符号规则” 的混合模式。例如,在 VLA 生成动作序列后,系统仍会通过碰撞检测等符号化模块进行安全校验,平衡泛化能力与可解释性。
  2. 数据闭环与持续学习
    依托 29.3 亿公里实车日志与生成式仿真数据,小鹏构建了 “数据采集 - 标注 - 训练 - 部署” 的闭环。例如,用户的每一次接管操作都会被标注为负样本,用于优化模型决策逻辑。
  3. 跨场景技术复用
    云端 720 亿参数基座模型不仅服务于汽车,还为未来的机器人、低空物流等场景铺路。例如,该模型的多模态推理能力可直接迁移至家庭服务机器人的任务规划。

总结


小鹏汽车的 VLA 算法已从概念验证迈向规模化落地,其核心优势在于高算力芯片支撑的车端大模型部署云端基座模型的持续进化,以及多模态交互的场景化创新。随着年底跨代更新的到来,小鹏有望在智驾领域进一步拉开与竞品的差距。不过,其技术路线仍需面对数据隐私、长尾场景泛化等挑战,而行业对 “十倍体验” 的实际效果验证,将成为 2025 年下半年的关注焦点。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐