大模型开发应用-RAG、AIGC与Agent
本章了解与学习RAG、Agent、AIGC的基础概念、关系、核心技术等
本章了解与学习RAG、Agent、AIGC的基础概念、关系、核心技术等
一、RAG
RAG,即检索增强生成,先从外部知识库检索相关文档,把内容放进 Prompt,再让大模型基于检索内容回答,解决幻觉、知识过时、私有知识问题。
作用:解决大模型不知道、瞎编的问题。
核心流程:
- 对知识库文档切分与向量化后,存入向量库;
- 用户问题向量化,与知识库向量化做相似度检索;
- 将可参考资料与问题向量进行拼接形成prompt后送入大模型生成答案。
典型场景:客服问答、企业知识库、法律 / 医疗专业问答
常见优化手段:
优化分块策略(按段落 / 按标题 / 滑动窗口)
优化Embedding 模型
多路召回:向量检索 + 关键词检索 混合
重排序模型(Rerank)
上下文压缩、过滤无关内容
多轮对话历史优化
二、AIGC
AI 生成内容,包括文本、图片、音频、视频、3D 等,只要是生成新内容,都可以叫 AIGC。
作用:让模型创造东西。
AIGC主流大模型
Stable Diffusion:扩散模型,降噪生成图像
ControlNet:控制姿态、边缘、深度、结构
SAM:万能分割,点哪切哪
BERT、GLM:文本生成
GPT-3.5/4:对话模型
AIGC 工程关键技术
- 提示词工程(Prompt)
- 模型微调(LoRA)
- 推理加速(TensorRT、vLLM)
- 多模态输入输出
三、Agent(智能体)
Agent 最基础范式即一边思考(Thought),一边行动(Act),观察结果(Observation),循环完成任务。
作用:能自主思考、规划、调用工具、执行复杂任务的智能体。
基础流程:理解目标 → 拆步骤 → 查资料 → 生成内容 → 执行 → 反思
Agent 三要素
Memory(记忆)、Tool(工具)、Planning(规划)是Agent的核心组件
- Memory
短期上下文:本轮对话里的内容,存在 prompt 里,用完就丢
长期记忆:存在向量库 / 数据库,跨会话保存
外置记忆:把关键信息存起来,需要时再读取(类似人的笔记本) - Tool
大语言模型不能干、不会干、不准的事,交给外部工具去做,如搜索、计算器、RAG、代码解释器、API - Planning
拆步骤、反思、修正逻辑设计
常见架构(这三要素怎么组合、怎么流转)
ReAct:一边思考,一边调用工具,循环完成任务。
ReWOO:先把所有工具调用计划好,再统一执行,减少重复推理。
Plan & Execute:先规划步骤,再按步骤执行,结构更清晰。
ToolFormer:教模型自己学会调用工具,把调用当成生成任务。
AutoGPT:能自主定目标、拆步骤、循环执行、自我反思的全自动智能体。
四、三者的关系
Agent 可以 内部调用 RAG 查资料
Agent 可以 内部调用 AIGC 生成内容
RAG + AIGC = 基础应用
RAG + AIGC + 思考规划 = Agent
五、工程化基本流程与相关技术(不扩展)
大模型应用工程化,主要包括轻量化微调、推理加速、服务部署、RAG 工程化、Agent 执行引擎、评估监控和数据 pipeline
-
模型轻量化 & 微调工程化
LoRA / QLoRA:低秩、量化微调,省显存,让模型轻量化
SFT / RLHF / DPO:指令微调、偏好对齐流程化,让模型更听话、回答更好
模型合并、量化导出:4bit / 8bit / GGUF -
推理加速 & 服务部署
vLLM、TGI、Text Generation Inference:高吞吐推理
TensorRT-LLM:NVIDIA 推理加速
FlashAttention:提速、省显存
模型服务化:FastAPI、gRPC、Docker 封装 -
向量数据库 & RAG 工程化
向量库:Milvus、FAISS、Chroma、Pinecone
文档处理:读取、清洗、分块、去重
检索优化:混合召回、Rerank、多路召回
Prompt 模板管理、上下文压缩 -
Agent 执行引擎
规划、工具调用、记忆管理
ReAct、Plan&Execute 等执行流程
工具校验、异常重试、超时控制
工作流编排:LangChain、LlamaIndex、coze、dify -
评估、观测与运维
效果评估:准确率、流畅度、 hallucination 检测
监控:时延、QPS、错误率
日志追踪、 tracing
灰度发布、A/B 测试、自动扩容 -
数据工程
指令数据构造、清洗、去重
偏好数据构建
数据 pipeline 自动化
比如:用 LoRA、QLoRA 做低成本微调,用 vLLM、TensorRT 做推理加速,用 Milvus 这类向量库做 RAG,用 LangChain/LlamaIndex 做 Agent 流程编排,再配上服务化、监控、评估体系,就是完整的大模型应用工程化。
更多推荐


所有评论(0)