从 LLM 到 Agent：Prompt、RAG、Function Calling、Workflow、MCP 等技术分别解决了什么问题？

大模型应用从文本生成演进为任务执行智能体，核心概念对应具体工程痛点：LLM（2020-2022）实现通用生成但知识固化；Prompt（2022）控制输出格式；Context/Memory（2023）解决会话记忆问题；RAG+Search（2023）接入外部知识；FunctionCalling（2023）实现工具调用；Workflow/LangChain（2023-2024）组织多步任务；Agent

敢以黑白买太安

574人浏览 · 2026-03-05 17:53:00

敢以黑白买太安 · 2026-03-05 17:53:00 发布

过去两三年，“大模型应用”从聊天机器人迅速演进到能读文件、写代码、跑脚本、查数据库、自动完成任务的智能体（Agent）。很多概念逐渐出现：Prompt、Context、Memory、RAG、Search、Function Calling、Workflow、LangChain、Agent、Skill、SubAgent、MCP……看起来像“术语堆砌”，但它们几乎都对应着一个非常具体的工程痛点。

这篇文章按时间顺序梳理：每个概念出现的历史原因、解决的问题、典型架构与实践要点。

0. 技术演进主线

可以把这条演进理解为：从“生成文字”到“连接世界并执行任务”。

LLM：生成文本的引擎
Prompt / Context：让引擎按你想要的方式输出
Memory：跨会话保持用户信息与偏好
RAG + Search：让模型引用外部知识、降低幻觉
Function Calling / Tools：让模型能“做事”，而不只是“说”
Workflow：让多步骤任务可靠执行、可观测、可复现
LangChain（或类似框架）：把 Prompt/Memory/RAG/Tools/流程组织起来
Agent / Skill / SubAgent：把任务拆解、规划、协作自动化
MCP：工具接入标准化，让工具生态可复用、可插拔

1) LLM：一切的起点（2020–2022）

为什么出现

深度学习的语言建模能力达到“通用生成”的阈值：你给它一段输入，它能续写、总结、翻译、写代码、写文章。

解决了什么问题

大幅降低自然语言任务的开发成本
“一个模型，多种任务”的通用能力（泛化）

但工程上很快撞墙

只有 LLM 时，你得到的是：

输入文本 → 输出文本

它的局限非常现实：

知识不更新：训练数据固定，无法天然知道企业文档、最新数据
不可访问私有数据：项目文件、数据库、内部系统都不在模型里
不能执行动作：它最多“建议你怎么做”，不会自己去做
缺少可控性与一致性：同一问题不同提法，输出差异大

于是下一阶段出现：Prompt。

2) Prompt：从“会说话”到“可控输出”（2022）

为什么出现

人们发现：同一个模型，“怎么问”会极大改变结果。Prompt 工程本质上是对模型的行为约束与角色设定。

有什么用

让输出更符合格式：JSON、步骤、要点、代码风格
让输出更符合身份：面试官、法务、产品经理、资深工程师
让输出更符合任务：总结、对比、推理、生成、校对

但 Prompt 仍解决不了两类硬问题

模型仍然不知道你的外部信息（文档、代码库、数据库）
模型仍然不会跨轮次稳定“记住”你说过什么

于是出现：Context 与 Memory。

3) Context：把“对话历史”喂回模型（2022–2023）

Context = 模型当前能看到的输入信息
Memory = 系统长期保存的信息

为什么出现

LLM是“无状态”的。每一次调用，如果你不提供之前的内容，它就像“失忆”。

有什么用

让对话可持续：把前面的对话内容拼到当前请求里
让模型在当前会话中保持一致：你说的限制条件、目标、背景能被记住

核心限制：上下文窗口

Context 的本质是“把历史重新塞回去”，它受限于：

token 预算（越长越贵、越慢）
长上下文会引入噪声，效果反而下降
跨天/跨项目的长期记忆难维护

于是出现：Memory（持久记忆）。

4) Memory：把“用户相关信息”持久化（2023）

为什么出现

你不希望每次都重新解释：

我的项目背景是什么
我喜欢什么风格
我上次做到哪一步
我常用的技术栈、约束条件

有什么用

用户偏好：语言、格式、风格、默认工具
长期事实：身份、常用路径、项目约定
任务状态：上次未完成的步骤、待办清单

工程上要注意的点

记忆不是越多越好：需要“可更新、可删除、可解释”
区分短期记忆（session）与长期记忆（profile）
隐私与合规：哪些能存、存多久、用户可控

Memory 解决了“记住用户”，但还没解决“知道真实世界最新事实”。这在企业应用里尤其致命，于是出现：RAG 与 Search。

5) Search + RAG：让模型引用外部知识（2023）

为什么出现

LLM 的回答经常“看似合理但不真实”（幻觉），尤其涉及：

企业内部制度、产品规格、流程
最新文档、最新数据、最新代码状态
需要引用证据的场景（可追溯、可审计）

Search 是什么

Search 是“找资料”的能力，包括：

关键词检索（BM25/Elastic）
向量检索（embedding）
混合检索（关键词 + 向量 + rerank）

RAG 是什么

RAG（检索增强生成）是一个完整链路：

把问题转成检索 query
从知识库检索相关内容（Search）
将检索结果作为 context 注入到 LLM
LLM 基于引用内容生成回答

有什么用

回答基于证据，幻觉显著下降
企业知识可用：文档、FAQ、代码注释、Wiki、数据库摘要
可追溯：能告诉用户“我根据哪段内容回答的”

RAG 让模型“知道”，但还没让模型“做”。现实任务往往需要读取文件、执行脚本、调用 API，于是出现：Function Calling（工具调用）。

6) Function Calling：让模型从“说”变成“做”（2023）

为什么出现

LLM 最初只能生成文本，但真实需求往往需要 执行操作，例如：

“分析这个 CSV” → 需要运行 Python
“查询订单状态” → 需要调用数据库/API
“把 PDF 转成表格” → 需要调用解析工具
“修改代码并运行测试” → 需要读写文件并执行命令

也就是说，用户真正需要的是 任务结果，而不仅仅是文字建议。

核心思想

Function Calling 让模型可以输出 结构化的函数调用指令，而不是普通文本：

{
  "tool": "get_weather",
  "arguments": {"city": "Shanghai"}
}

系统收到后：

执行对应函数
获取结果
将结果返回给模型继续推理

整体流程：

因此模型具备了 调用外部能力的入口。

有什么用

串起外部能力：文件、数据库、Shell、浏览器、内部系统
大幅扩展可用场景：从聊天到自动化任务

工程要点

工具必须有清晰的 schema（参数类型、必填项、错误码）
工具执行要隔离与安全（权限、沙箱、确认机制）
需要可观测（日志、输入输出、重试、超时）
当工具数量较少时，可以直接将全部工具定义随请求发送给模型；但在实际生产系统中，通常会先做工具筛选，只将与当前任务最相关的工具注入上下文，以降低 token 成本并提高工具选择准确率。