大模型开发应用-RAG、AIGC与Agent

本章了解与学习RAG、Agent、AIGC的基础概念、关系、核心技术等

睡醒了叭

732人浏览 · 2026-03-03 11:47:44

睡醒了叭 · 2026-03-03 11:47:44 发布

本章了解与学习RAG、Agent、AIGC的基础概念、关系、核心技术等

一、RAG

RAG，即检索增强生成，先从外部知识库检索相关文档，把内容放进 Prompt，再让大模型基于检索内容回答，解决幻觉、知识过时、私有知识问题。
作用：解决大模型不知道、瞎编的问题。

核心流程：

对知识库文档切分与向量化后，存入向量库；
用户问题向量化，与知识库向量化做相似度检索；
将可参考资料与问题向量进行拼接形成prompt后送入大模型生成答案。
典型场景：客服问答、企业知识库、法律 / 医疗专业问答

常见优化手段：
优化分块策略（按段落 / 按标题 / 滑动窗口）
优化Embedding 模型
多路召回：向量检索 + 关键词检索混合
重排序模型（Rerank）
上下文压缩、过滤无关内容
多轮对话历史优化

二、AIGC

AI 生成内容，包括文本、图片、音频、视频、3D 等，只要是生成新内容，都可以叫 AIGC。
作用：让模型创造东西。

AIGC主流大模型

Stable Diffusion：扩散模型，降噪生成图像
ControlNet：控制姿态、边缘、深度、结构
SAM：万能分割，点哪切哪
BERT、GLM：文本生成
GPT-3.5/4：对话模型

AIGC 工程关键技术

提示词工程（Prompt）
模型微调（LoRA）
推理加速（TensorRT、vLLM）
多模态输入输出

三、Agent（智能体）

Agent 最基础范式即一边思考（Thought），一边行动（Act），观察结果（Observation），循环完成任务。
作用：能自主思考、规划、调用工具、执行复杂任务的智能体。
基础流程：理解目标 → 拆步骤 → 查资料 → 生成内容 → 执行 → 反思

Agent 三要素

Memory（记忆）、Tool（工具）、Planning（规划）是Agent的核心组件

Memory
短期上下文：本轮对话里的内容，存在 prompt 里，用完就丢
长期记忆：存在向量库 / 数据库，跨会话保存
外置记忆：把关键信息存起来，需要时再读取（类似人的笔记本）
Tool
大语言模型不能干、不会干、不准的事，交给外部工具去做，如搜索、计算器、RAG、代码解释器、API
Planning
拆步骤、反思、修正逻辑设计

常见架构（这三要素怎么组合、怎么流转）

ReAct：一边思考，一边调用工具，循环完成任务。
ReWOO：先把所有工具调用计划好，再统一执行，减少重复推理。
Plan & Execute：先规划步骤，再按步骤执行，结构更清晰。
ToolFormer：教模型自己学会调用工具，把调用当成生成任务。
AutoGPT：能自主定目标、拆步骤、循环执行、自我反思的全自动智能体。

四、三者的关系

Agent 可以内部调用 RAG 查资料
Agent 可以内部调用 AIGC 生成内容
RAG + AIGC = 基础应用
RAG + AIGC + 思考规划 = Agent

五、工程化基本流程与相关技术（不扩展）

大模型应用工程化，主要包括轻量化微调、推理加速、服务部署、RAG 工程化、Agent 执行引擎、评估监控和数据 pipeline

模型轻量化 & 微调工程化
LoRA / QLoRA：低秩、量化微调，省显存，让模型轻量化
SFT / RLHF / DPO：指令微调、偏好对齐流程化，让模型更听话、回答更好
模型合并、量化导出：4bit / 8bit / GGUF
推理加速 & 服务部署
vLLM、TGI、Text Generation Inference：高吞吐推理
TensorRT-LLM：NVIDIA 推理加速
FlashAttention：提速、省显存
模型服务化：FastAPI、gRPC、Docker 封装
向量数据库 & RAG 工程化
向量库：Milvus、FAISS、Chroma、Pinecone
文档处理：读取、清洗、分块、去重
检索优化：混合召回、Rerank、多路召回
Prompt 模板管理、上下文压缩
Agent 执行引擎
规划、工具调用、记忆管理
ReAct、Plan&Execute 等执行流程
工具校验、异常重试、超时控制
工作流编排：LangChain、LlamaIndex、coze、dify
评估、观测与运维
效果评估：准确率、流畅度、 hallucination 检测
监控：时延、QPS、错误率
日志追踪、 tracing
灰度发布、A/B 测试、自动扩容
数据工程
指令数据构造、清洗、去重
偏好数据构建
数据 pipeline 自动化

比如：用 LoRA、QLoRA 做低成本微调，用 vLLM、TensorRT 做推理加速，用 Milvus 这类向量库做 RAG，用 LangChain/LlamaIndex 做 Agent 流程编排，再配上服务化、监控、评估体系，就是完整的大模型应用工程化。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

打造智能电商客服 Agent：基于 LLM 的工具调用与多轮推理实践

2048 AI社区

构建可观测Harness：Agent全链路追踪与监控

可观测Harness是一套统一的可观测性管控框架，向下对接所有的基础设施、业务服务，向上提供统一的可观测数据出口和管控能力，核心是统一Agent和控制平面，实现采集规则统一、数据标准统一、管控策略统一。全链路追踪是指对一个请求从发起到结束的整个生命周期进行跟踪，记录经过的所有服务、组件、节点的调用关系、延迟、错误状态等信息，用唯一的traceId作为整个链路的标识。