本篇文章集中系统梳理了AI agent的前世今生,以及其他AI agent相关概念,欢迎评论区一起讨论学习!

AI agent的前世今生

前世:哲学灵光 → 专家系统 → 强化学习

  1. 哲学曙光
    公元前庄子说“庖丁解牛”,亚里士多德谈“目的因”,都在暗示“自主行动者”这一思想种子。
  2. 符号主义时代(1950-1990)
    图灵提出“机器能思考吗?”后,研究者用“if-else”手工写规则,造出“逻辑理论家”“通用问题求解器”——这就是最早的“规则 Agent”。
  3. 强化学习崛起(1990-2010)
    不再手工写规则,让 Agent 在环境里“试错”赚分数。AlphaGo 就是这一脉的巅峰代表。
  4. 深度学习加入(2010-2020)
    把“视觉-动作”网络端到端训练,Atari 游戏、机器人抓东西都能搞定,但场景仍单一,泛化差。

今生:大模型当“大脑”,Agent 突然“长出手脚”

  1. 2020 以后,LLM(大语言模型)爆发
    GPT-3/4、Claude、Gemini 让机器第一次拥有“通用语言脑”:会推理、会写代码、能规划。
  2. 工程师发现:只要给这颗“大脑”配上
    • 记忆(向量数据库)
    • 工具(调用 API、浏览器、Python 解释器)
    • 规划(拆解目标→子任务→检查中间结果)
      它就升级成“能自主干活的完整数字人”——这就是今天说的 AI Agent。
  3. 开源示范一夜出圈
    2023 年 AutoGPT、BabyGPT、GPT-Engineer 把上面套路打包成 GitHub 模板,几天揽下十万星,彻底点燃大众想象力。

为什么“忽如一夜春风来”

  1. 技术底座成熟
    • 模型能力:多轮对话、代码生成、常识推理同时在线。
    • 基础设施:向量库、插件市场、MCP 统一接口,让“接工具”像插 USB 一样简单。
    • 成本骤降:百万 Token 降到几毛钱,企业用得起。
  2. 需求侧“刚好缺人”
    • 知识库问答、数据分析、工单流转成为企业标配,Agent 把人手不足的痛点一次性包住。
  3. 大厂与资本一起“拱火”
    OpenAI、Google、微软、阿里、百度同一时间把路线图从“做大模型”改成“做 Agent 生态”,市场热度瞬间爆表。

当下生态速写:两条主流路线

  1. 端到端学习型
    完全用强化学习或大模型自回归,内部自己生成“下一步动作”,代表是 OpenAI DeepResearch、Kimi Researcher。
  2. 工程拆分型
    把“感知→规划→调用工具→记忆”拆成模块,用提示工程 + API 编排,代表是 LangChain、n8n、各大企业级平台。
    目前产业落地以第二种为主,因为调试透明、易接入老系统;第一种更酷但仍在实验阶段。

当下生态

一、端到端学习型(End-to-End RL Agent)

  1. 核心思路
    把整个“感知→规划→工具调用→记忆”全部塞进一个黑盒模型里,用强化学习(RL)直接优化“最终任务成功概率”。
    类比:不给剧本,让演员自己上台边演边拿观众掌声训练。

  2. 典型架构(单模型闭环)
    输入:用户目标 + 上下文
    → 大模型内部生成隐状态(记忆+规划)
    → 模型直接输出工具调用序列(可并行/串行)
    → 环境返回奖励(任务成功度)
    → 用 PPO/RLHF 更新同一个模型参数。

  3. 代表玩家与产品

    • OpenAI Deep Research
    • Kimi Researcher
      只有“模型厂+大算力”才玩得起,需要上万张 GPU 做离线 RL。
  4. 优点
    ① 上下文全程在模型内,长链条任务一致性最好;
    ② 上限高,理论上可以自我进化出“人类没教过”的连招。

  5. 缺点
    ① 黑盒不可解释,一旦跑偏很难 debug;
    ② 上下文爆炸时长程梯度消失,训练不稳定;
    ③ 成本高,普通公司无法复现。

  6. 当前落地状态
    2025 年仍处“Demo 即产品”阶段,主要拿来做“深度研究”“长文档多跳问答”这类对“连贯性”极度敏感的场景。

二、工程拆分型(Modular Workflow Agent)

  1. 核心思路
    把智能体拆成 4~6 个可插拔模块:感知、规划、工具、记忆、反思、协作。每个模块单独选型,再用 Prompt/脚本/API 胶水粘起来。
    类比:乐高积木,缺哪块换哪块。

  2. 典型架构(白盒 DAG)
    用户输入
    ├─> 感知(NLU)模块:LLM 提取意图、实体
    ├─> 规划(Planner)模块:LLM 生成可执行 DAG 或 ReAct 循环
    ├─> 工具调用层:按 DAG 节点依次/并行调用外部 API、数据库、RPA(MCP
    ├─> 记忆层:Vector DB 存长期知识,Redis 存会话上下文
    └─> 反思层:LLM 检查结果,决定重试或重规划
    全部流程写进 YAML/JSON,可可视化拖拽。

  3. 代表玩家与产品

    • LangChain / LangGraph
    • n8n、Dify、FastGPT、Minus(国内)
    • 企业自建:把 DeepSeek-R1 当 Planner,Claude-3 当 Coding,自研插件当工具。
  4. 优点
    ① 白盒可解释,节点出错直接定位;
    ② 不挑模型,小模型也能在单点干活;
    ③ 落地快,今天搭明天就能上线;
    ④ 符合合规审计要求(金融、医疗最爱)。

  5. 缺点
    ① 跨模块信息丢失,长链条一致性差;
    ② Prompt 一改全局联动,维护成本随节点指数上升;
    ③ 上限受限于最弱的那块积木。

  6. 当前落地状态
    2025 年“真·赚钱”的 Agent 90% 都是这条路线:

    • 电商客服:意图识别 0.1 元/次 + 订单查询插件 + 补偿策略脚本
    • 数据分析:Planner→SQL→Python→可视化,全程拖拽
    • 财务 RPA:读邮件→下载附件→报税网站模拟点击→生成凭证。

三、两张路线对比一张表

端到端 RL Agent 工程拆分 Workflow Agent
训练对象 单模型全局参数 各模块独立,不训练整体
数据需求 百万级 RL 轨迹 + 超大算力 几千条提示样本即可
可解释性 黑盒 白盒,节点可调试
一致性 高(上下文全在模型内) 低(模块间靠文本传参)
落地门槛 仅限模型厂 普通公司/个人都能玩
当前商业化程度 Demo 阶段 已规模化盈利
典型场景 深度研究、多跳推理 客服、数据分析、审批流、RPA

工程拆分型的关键积木——MCP

一、MCP 到底是什么

MCP = AI 应用的“USB-C 口”
让任何大模型都能用同一套插头,去插任何工具、任何数据源,而不用再给每个组合写一遍“转接头”驱动。

官方全称:Model Context Protocol,Anthropic 在 2024 年底开源,2025 年 4 月以后国内阿里云、腾讯云、华为云全部官宣支持。


二、它为啥诞生?——“MxN”翻译地狱

先把时间拨回 2024 年上半年,那时“Agent 热”刚起,却遇到一个尴尬:

现实场景 痛苦点
公司里有 5 个大模型(GPT、Claude、Qwen…) 每接 1 个新工具,就要写 5 份“函数调用说明”
公司里有 10 个工具(查订单、查库存、发邮件…) 每换 1 个新模型,又得重新写 10 份调用格式
结果 5×10 = 50 份“翻译代码”,维护到崩溃

Anthropic 两位工程师 David & Justin 每天帮内部同事写这种“转接头”,快疯了,于是灵光一闪:

“给代码编辑器用的 LSP(Language Server Protocol) 能统一插件,咱们能不能给 AI 也搞个类似协议?”
两人闭关 6 周,MCP 原型出炉,11 月 25 日正式开源。


三、MCP 在“工程拆分型 Agent”里到底扮演啥角色?

  • 规划模块决定“我要调用 toolA”
  • MCP 客户端把这条“函数调用 JSON”转成统一格式的 JSON-RPC 报文,丢给 MCP 服务器
  • MCP 服务器再把报文译成 toolA 真正能看懂的 REST/SQL/RPC
  • 返回结果沿原路回模型,全程对开发者透明
    → 于是“Planner”只写一次,以后换工具、换模型、甚至换云厂商,都不用改代码

四、MCP 的三板斧:工具、资源、提示

类别 作用 生活比喻
Tool 让模型“动手”——下单、发邮件、调 API 秘书帮老板订机票
Resource 让模型“睁眼”——拉实时数据、读私有知识库 秘书把最新报表放老板桌面
Prompt 让模型“按剧本”——预设系统指令、模板 秘书提醒老板“见客户要先寒暄”

所有交互走 JSON-RPC,双向通信,客户端(AI 应用)拥有最终控制权,用户可随时插拔。

五、MCP 与 Fnction Calling 是啥关系?

一句话:

Function Calling 是“说法”,MCP 是“翻译官”

  • Function Calling:模型只会说“我要调用函数 buyCoffee(type=美式)”
  • MCP:把这句“人话”自动翻成供应商 API 能懂的 JSON,并帮你在组织内部目录里找到“已接入的美式咖啡供应商”,一键下单。

六、2025 年的生态现状

  1. 大厂态度

    • OpenAI、Google、微软已官宣兼容 MCP
    • 国内阿里云百炼、腾讯云 TI 平台、华为盘古都已上线“一键部署 MCP 服务器”模板
  2. 社区资源

    • 官方 SDK:TypeScript、Python、Rust、Java、Go 全覆盖
    • 开源市场:github.com/modelcontextprotocol 已有 200+ 现成 Server(查 MySQL、发 Slack、操作 K8s…)
  3. 典型落地场景

    • 电商客服:Planner 决策→MCP 调订单/物流/退款接口,3 天可上线
    • 金融研报:Claude 生成框架→MCP 实时拉 Wind/同花顺数据→自动出 PDF
    • 运维值班:GPT-4 诊断→MCP 执行 K8s 命令→钉钉通知

七、使用MCP与Coze等主流平台有何区别

一句话先给答案: “搭一个 MCP Server” ≠ “在 Coze 上搭 Agent”
前者是给工具做“USB 母座”(让任何模型都能插进来用);
后者是在图形界面里拼乐高小人(只能在该平台内部玩)。下面拆开说。

一、MCP Server 到底是啥
  1. 定义
    MCP Server = 一个轻量级后端进程,负责把你的具体工具/数据包装成标准 JSON-RPC 接口,供任何兼容 MCP 的模型调用。
    官方叫法:Tool Server 或 Resource Server。

  2. 它干的三件事
    ① 把“函数签名”暴露出去(让模型知道“我能买咖啡、查库存”)
    ② 把模型发来的“抽象调用”翻译成真实 API/SQL/脚本并执行
    ③ 把执行结果按 MCP 协议回包

  3. 最小可运行代码(Python 版,30 行)

from mcp.server import Server, tool
import requests

@tool
def weather(city: str) -> str:
    """查天气"""
    r = requests.get(f"https://api.weather.com/...&q={city}")
    return r.json()["desc"]

if __name__ == "__main__":
    Server([weather]).start()

跑起来后,任何支持 MCP 的客户端(Claude Desktop、IDE 插件、你自己的 Agent)都能自动发现 weather 工具并调用,无需再写解析代码

二、在 Coze / 扣子 / 钉钉 Agent 平台搭 Agent 是什么体验
  1. 纯图形化
    拖一个“大模型”节点 → 拖一个“插件”节点 → 用连线表示“先让模型思考,再调用插件” → 发布。

  2. 只能使用平台“货架”上的插件
    想用自己公司的私有数据库?
    → 必须先封装成“私有插件”上架 → 审核 → 才能拖进来。
    一旦换到别的平台,全部重搭。

  3. 运行环境锁定在平台
    最终用户必须在 Coze 里对话,或者通过 Coze 提供的 Bot Key 嵌入。
    模型、插件、日志、计费全在人家云里。

三、核心区别一张表
维度 自搭 MCP Server 在 Coze 等平台搭 Agent
目标 把“工具”做成通用母座 把“业务逻辑”拼成可对话机器人
入口 写代码(30 行起) 拖拽+配置
谁能调用 任何支持 MCP 的模型/应用 只能在该平台内部
数据私密性 工具跑在你本地/私有云,数据不出内网 必须上传或走平台转发
可移植性 一次写好,到处插拔 与平台强绑定,换平台重造
适合谁 开发者、企业 IT、SaaS 厂商 业务人员、运营、个人爱好者
类比 给工具做“USB-C 母口” 用乐高小人拼一个“只能站自家地毯”的玩具
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐