论大模型应用架构（RAG/Agent）的设计与应用——以自动驾驶数据闭环平台为例

本文介绍了基于RAG和Agent技术构建的新一代自动驾驶数据闭环平台。该平台通过多模态向量数据库实现自然语言检索PB级驾驶数据，利用智能体集群自动化完成数据清洗、标注和仿真场景生成。关键技术包括CLIP+VectorDB+LLM检索架构、基于ReAct范式的标注流水线以及仿真场景生成Agent。系统显著提升了CornerCase挖掘效率（500%提升）和自动标注准确率（达95%），大幅降低了人工成

击水三千里

23人浏览 · 2026-03-07 16:48:48

击水三千里 · 2026-03-07 16:48:48 发布

【摘要】

2025年5月，我有幸作为核心系统架构师，主持了某新能源车企“新一代自动驾驶数据闭环平台”的重构与升级工作。该平台旨在解决海量路测数据中长尾场景（Corner Case）挖掘难、数据标注效率低以及仿真场景生成成本高等核心痛点。鉴于传统深度学习模型在复杂语义理解和逻辑推理上的局限性，我们构建了一套基于 RAG（检索增强生成） 与 Agent（智能体） 协同的 AI 原生数据闭环架构。

本文以该项目为例，论述了大模型应用架构的设计。首先，通过构建多模态向量数据库与语义索引，利用 RAG 技术实现了对 PB 级驾驶数据的自然语言检索与长尾场景挖掘；其次，基于 ReAct 范式设计了数据处理 Agent 集群，利用工具调用（Function Calling）实现了从数据清洗、自动标注到仿真场景重建的全流程自动化；最后，采用了私有化部署的 LLM（大语言模型） 与 VLM（视觉语言模型） 协同工作，配合推理加速技术，在保障数据安全的同时提升了闭环效率。系统上线后，Corner Case 挖掘效率提升 500%，自动标注准确率达到 95%，显著加速了自动驾驶算法的迭代周期。

【正文】

一、项目背景与主要职责

随着公司 L3 级自动驾驶功能的量产落地，车队每天回传的数据量达到 PB 级别。然而，原有的数据处理链路面临巨大挑战：

场景挖掘难： 传统基于标签（Tag）的搜索无法处理复杂语义。例如，工程师想找“下雨天，前方有穿着雨衣的骑行者突然横穿马路”的场景，传统 SQL 或标签检索束手无策。
标注效率低： 依靠人工标注海量数据，成本高且周期长，无法满足模型快速迭代的需求。
工具链割裂： 数据挖掘、标注、仿真等环节由不同工具组成，缺乏统一的智能调度中枢。

为了解决上述问题，公司决定引入大模型技术重构数据闭环。作为架构师，我负责整体技术架构设计与核心模块落地。我制定了从“标签检索”向“语义检索 + 智能体编排”转型的技术路线，确立了以 RAG 为知识引擎、Agent 为自动化执行引擎的架构体系。

二、 RAG 与 Agent 架构的核心设计思想

在自动驾驶数据闭环中，我们将大模型定义为“驾驶脑”，RAG 是“驾驶记忆（海量场景库）”，Agent 是“数据工兵（自动化工具）”。

1. RAG（检索增强生成）：解决“语义理解”与“场景定位” 在自动驾驶领域，RAG 不仅是检索文本，更是检索多模态数据（Video/Image/Lidar）。

核心思想： 将海量路测视频片段转化为多模态向量（Embeddings）存入向量数据库。当用户用自然语言描述场景时，系统先检索出最相似的视频片段，将其作为上下文（Context）输入给 VLM（视觉语言模型），让模型判断该片段是否符合需求，从而实现“以文搜图/视频”。

2. Agent（智能体）：解决“工具链编排”与“复杂任务自动化” 数据闭环涉及数据清洗、自动标注、仿真生成等多个步骤。

核心思想： 我们基于 ReAct (Reason + Act) 范式构建 Agent。面对“找出所有闯红灯场景并生成仿真测试用例”的任务，Agent 会先思考（Thought），拆解为“检索场景 -> 调用标注工具 -> 调用仿真转换工具”三个步骤，并依次调用对应的 API（Action），最终完成任务。

三、关键技术实施与落地

在项目中，我重点主导了以下三个关键技术模块的设计与实现：

1. 多模态 RAG 场景挖掘系统

为了让工程师能用自然语言“对话式”挖掘数据，我设计了**“CLIP + Vector DB + LLM”**的检索架构。

多模态向量化： 利用 CLIP 模型及其变体，将车端回传的视频关键帧（Key Frame）和激光雷达点云投影图转化为高维向量，存储在 Milvus 分布式向量数据库中。
语义对齐与检索： 当工程师输入“高速公路施工区域，锥桶摆放不规范”时，Query 被转化为向量，在 Milvus 中进行近似最近邻搜索（ANN）。
LLM 增强校验： 向量检索只能保证“相似”，不能保证“精准”。检索出的 Top 50 候选片段，会被送入私有化部署的 Qwen-VL（视觉大模型） 进行二次校验。模型会逐帧分析视频，确认是否存在“不规范锥桶”，最终返回精准的 Top 10 结果。这一设计将复杂长尾场景的挖掘准确率从 60% 提升到了 95%。

2. 基于 Agent 的自动化数据标注流水线

标注是数据闭环中最耗时的环节。我设计了一个 Annotation Agent（标注智能体） 来接管这一工作。

工具调用（Function Calling）： 我们将现有的 2D 检测算法、3D 点云分割算法、车道线识别算法封装为 Agent 可调用的 Tools。
ReAct 编排： 当 Agent 接收到一段数据时，它会首先调用“初筛工具”判断数据价值；确认有价值后，调用“自动标注模型（Auto-Labeling Model）”生成预标注结果。
自我反思（Self-Reflection）： Agent 会调用 VLM 模型对预标注结果进行“视觉查验”。例如，VLM 发现标注框漏掉了一个被遮挡的行人，Agent 会自动调用“微调工具”修正标注框，或者将该帧标记为“疑难帧”发送给人工复核。这种“AI 标注 + AI 质检”的模式，将人工介入率降低了 80%。

3. 仿真场景生成 Agent

为了将挖掘出的 Corner Case 快速转化为仿真测试用例，我设计了 Simulation Agent。

场景参数化： Agent 读取 RAG 检索到的真实事故视频，提取出关键要素（天气：雨天，障碍物：行人，速度：40km/h，轨迹：横穿）。
OpenSCENARIO 生成： 利用 LLM 强大的代码生成能力，Agent 将上述自然语言描述转化为标准的 OpenSCENARIO 格式代码（XML）。
虚实结合： Agent 调用仿真引擎（如 CARLA 或自研 Sim），加载生成的场景代码，自动运行数十次变异测试（如改变天气、微调行人速度），从而在虚拟世界中通过一次真实事故泛化出成千上万个测试用例。

四、遇到的挑战与解决方案

挑战一：多模态数据的时空对齐 自动驾驶数据包含 6 路摄像头、Lidar、Radar 等，时间戳对齐困难，导致 RAG 检索时图像与点云不匹配。

解决方案： 引入 BEV（鸟瞰图） 表征。在向量化之前，先通过 Transformer 将多模态数据投影到统一的 BEV 空间，将“多路数据”融合为“一个场景特征”，再进行 Embedding 存储。这不仅解决了对齐问题，还提升了空间检索的准确度。

挑战二：私有化大模型的推理延迟 VLM 模型（如 Qwen-VL-Chat）参数量大，处理视频帧速度慢，影响数据挖掘效率。

解决方案： 采用 vLLM 框架进行推理加速，并实施 KV Cache 量化（INT8）。同时，设计了“关键帧策略”：Agent 先分析视频的运动变化率，只对变化剧烈的关键帧调用大模型，静止或匀速片段跳过。这使得处理一分钟视频的耗时从 50 秒降低至 5 秒。

【结束语】

通过构建基于 RAG + Agent 的 AI 原生数据闭环平台，我们成功将“大模型”变成了自动驾驶迭代的“加速器”。系统上线后，工程师挖掘一个复杂 Corner Case 的时间从 3 天缩短至 10 分钟，自动标注的引入节省了每年数千万的外包成本。

这次实践让我深刻体会到，在自动驾驶领域，大模型不仅仅是车端的感知算法，更是云端数据工厂的核心引擎。架构师的职责在于设计高效的“数据流转机制”，让 RAG 成为连接海量数据与场景的桥梁，让 Agent 成为连接工具与任务的双手。未来，我计划探索 World Model（世界模型） 在数据闭环中的应用，让 Agent 具备预测未来的能力，进一步提升仿真的真实性。

记忆图谱（考场速记版 - 自动驾驶版）

底层（数据层 - 多模态 RAG）：
- 关键词： 多模态向量 (CLIP/BEV)、Milvus、语义检索 (Text-to-Video)。
- 作用： 用自然语言搜出 Corner Case（长尾场景），解决“大海捞针”难题。
中层（逻辑层 - Agent 编排）：
- 关键词： ReAct 范式、Annotation Agent (自动标注)、Simulation Agent (场景重建)。
- 作用： 自动调用工具做清洗、标注、仿真，替代人工流水线。
顶层（服务层 - 效能保障）：
- 关键词： VLM (视觉大模型)、vLLM 加速、OpenSCENARIO 生成。
- 作用： 这是一个“AI 标注员”和“AI 仿真工程师”，又快又准。