本章了解与学习RAG、Agent、AIGC的基础概念、关系、核心技术等

一、RAG

RAG,即检索增强生成,先从外部知识库检索相关文档,把内容放进 Prompt,再让大模型基于检索内容回答,解决幻觉、知识过时、私有知识问题。
作用:解决大模型不知道、瞎编的问题。

核心流程:

  1. 对知识库文档切分与向量化后,存入向量库;
  2. 用户问题向量化,与知识库向量化做相似度检索;
  3. 将可参考资料与问题向量进行拼接形成prompt后送入大模型生成答案。
    典型场景:客服问答、企业知识库、法律 / 医疗专业问答

常见优化手段:
优化分块策略(按段落 / 按标题 / 滑动窗口)
优化Embedding 模型
多路召回:向量检索 + 关键词检索 混合
重排序模型(Rerank)
上下文压缩、过滤无关内容
多轮对话历史优化

二、AIGC

AI 生成内容,包括文本、图片、音频、视频、3D 等,只要是生成新内容,都可以叫 AIGC。
作用:让模型创造东西。

AIGC主流大模型

Stable Diffusion:扩散模型,降噪生成图像
ControlNet:控制姿态、边缘、深度、结构
SAM:万能分割,点哪切哪
BERT、GLM:文本生成
GPT-3.5/4:对话模型

AIGC 工程关键技术
  1. 提示词工程(Prompt)
  2. 模型微调(LoRA)
  3. 推理加速(TensorRT、vLLM)
  4. 多模态输入输出

三、Agent(智能体)

Agent 最基础范式即一边思考(Thought),一边行动(Act),观察结果(Observation),循环完成任务。
作用:能自主思考、规划、调用工具、执行复杂任务的智能体。
基础流程:理解目标 → 拆步骤 → 查资料 → 生成内容 → 执行 → 反思

Agent 三要素

Memory(记忆)、Tool(工具)、Planning(规划)是Agent的核心组件

  • Memory
    短期上下文:本轮对话里的内容,存在 prompt 里,用完就丢
    长期记忆:存在向量库 / 数据库,跨会话保存
    外置记忆:把关键信息存起来,需要时再读取(类似人的笔记本)
  • Tool
    大语言模型不能干、不会干、不准的事,交给外部工具去做,如搜索、计算器、RAG、代码解释器、API
  • Planning
    拆步骤、反思、修正逻辑设计
常见架构(这三要素怎么组合、怎么流转)

ReAct:一边思考,一边调用工具,循环完成任务。
ReWOO:先把所有工具调用计划好,再统一执行,减少重复推理。
Plan & Execute:先规划步骤,再按步骤执行,结构更清晰。
ToolFormer:教模型自己学会调用工具,把调用当成生成任务。
AutoGPT:能自主定目标、拆步骤、循环执行、自我反思的全自动智能体。

四、三者的关系

Agent 可以 内部调用 RAG 查资料
Agent 可以 内部调用 AIGC 生成内容
RAG + AIGC = 基础应用
RAG + AIGC + 思考规划 = Agent

五、工程化基本流程与相关技术(不扩展)

大模型应用工程化,主要包括轻量化微调、推理加速、服务部署、RAG 工程化、Agent 执行引擎、评估监控和数据 pipeline

  1. 模型轻量化 & 微调工程化
    LoRA / QLoRA:低秩、量化微调,省显存,让模型轻量化
    SFT / RLHF / DPO:指令微调、偏好对齐流程化,让模型更听话、回答更好
    模型合并、量化导出:4bit / 8bit / GGUF

  2. 推理加速 & 服务部署
    vLLM、TGI、Text Generation Inference:高吞吐推理
    TensorRT-LLM:NVIDIA 推理加速
    FlashAttention:提速、省显存
    模型服务化:FastAPI、gRPC、Docker 封装

  3. 向量数据库 & RAG 工程化
    向量库:Milvus、FAISS、Chroma、Pinecone
    文档处理:读取、清洗、分块、去重
    检索优化:混合召回、Rerank、多路召回
    Prompt 模板管理、上下文压缩

  4. Agent 执行引擎
    规划、工具调用、记忆管理
    ReAct、Plan&Execute 等执行流程
    工具校验、异常重试、超时控制
    工作流编排:LangChain、LlamaIndex、coze、dify

  5. 评估、观测与运维
    效果评估:准确率、流畅度、 hallucination 检测
    监控:时延、QPS、错误率
    日志追踪、 tracing
    灰度发布、A/B 测试、自动扩容

  6. 数据工程
    指令数据构造、清洗、去重
    偏好数据构建
    数据 pipeline 自动化

比如:用 LoRA、QLoRA 做低成本微调,用 vLLM、TensorRT 做推理加速,用 Milvus 这类向量库做 RAG,用 LangChain/LlamaIndex 做 Agent 流程编排,再配上服务化、监控、评估体系,就是完整的大模型应用工程化。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐