AI agent时代，我们至少要懂哪些知识

本文系统梳理了AI Agent的发展历程与当前生态。从早期的哲学思想萌芽、符号主义规则系统到强化学习崛起，再到如今大语言模型驱动的智能体时代。文章重点分析了当前两大主流技术路线：端到端学习型（单模型闭环训练）和工程拆分型（模块化工作流），从架构、优缺点和落地场景进行对比。同时详细解读了新兴的MCP协议如何解决模型与工具间的"翻译地狱"问题，实现标准化交互。当前AI Agent已

司九Nineteen

978人浏览 · 2025-11-07 09:28:56

司九Nineteen · 2025-11-07 09:28:56 发布

本篇文章集中系统梳理了AI agent的前世今生，以及其他AI agent相关概念，欢迎评论区一起讨论学习！

AI agent的前世今生

前世：哲学灵光 → 专家系统 → 强化学习

哲学曙光
公元前庄子说“庖丁解牛”，亚里士多德谈“目的因”，都在暗示“自主行动者”这一思想种子。
符号主义时代（1950-1990）
图灵提出“机器能思考吗？”后，研究者用“if-else”手工写规则，造出“逻辑理论家”“通用问题求解器”——这就是最早的“规则 Agent”。
强化学习崛起（1990-2010）
不再手工写规则，让 Agent 在环境里“试错”赚分数。AlphaGo 就是这一脉的巅峰代表。
深度学习加入（2010-2020）
把“视觉-动作”网络端到端训练，Atari 游戏、机器人抓东西都能搞定，但场景仍单一，泛化差。

今生：大模型当“大脑”，Agent 突然“长出手脚”

2020 以后，LLM（大语言模型）爆发
GPT-3/4、Claude、Gemini 让机器第一次拥有“通用语言脑”：会推理、会写代码、能规划。
工程师发现：只要给这颗“大脑”配上
- 记忆（向量数据库）
- 工具（调用 API、浏览器、Python 解释器）
- 规划（拆解目标→子任务→检查中间结果）
  它就升级成“能自主干活的完整数字人”——这就是今天说的 AI Agent。
开源示范一夜出圈
2023 年 AutoGPT、BabyGPT、GPT-Engineer 把上面套路打包成 GitHub 模板，几天揽下十万星，彻底点燃大众想象力。

为什么“忽如一夜春风来”

技术底座成熟
- 模型能力：多轮对话、代码生成、常识推理同时在线。
- 基础设施：向量库、插件市场、MCP 统一接口，让“接工具”像插 USB 一样简单。
- 成本骤降：百万 Token 降到几毛钱，企业用得起。
需求侧“刚好缺人”
- 知识库问答、数据分析、工单流转成为企业标配，Agent 把人手不足的痛点一次性包住。
大厂与资本一起“拱火”
OpenAI、Google、微软、阿里、百度同一时间把路线图从“做大模型”改成“做 Agent 生态”，市场热度瞬间爆表。

当下生态速写：两条主流路线

端到端学习型
完全用强化学习或大模型自回归，内部自己生成“下一步动作”，代表是 OpenAI DeepResearch、Kimi Researcher。
工程拆分型
把“感知→规划→调用工具→记忆”拆成模块，用提示工程 + API 编排，代表是 LangChain、n8n、各大企业级平台。
目前产业落地以第二种为主，因为调试透明、易接入老系统；第一种更酷但仍在实验阶段。

当下生态

一、端到端学习型（End-to-End RL Agent）

核心思路
把整个“感知→规划→工具调用→记忆”全部塞进一个黑盒模型里，用强化学习（RL）直接优化“最终任务成功概率”。
类比：不给剧本，让演员自己上台边演边拿观众掌声训练。
典型架构（单模型闭环）
输入：用户目标 + 上下文
→ 大模型内部生成隐状态（记忆+规划）
→ 模型直接输出工具调用序列（可并行/串行）
→ 环境返回奖励（任务成功度）
→ 用 PPO/RLHF 更新同一个模型参数。
代表玩家与产品
- OpenAI Deep Research
- Kimi Researcher
  只有“模型厂+大算力”才玩得起，需要上万张 GPU 做离线 RL。
优点
① 上下文全程在模型内，长链条任务一致性最好；
② 上限高，理论上可以自我进化出“人类没教过”的连招。
缺点
① 黑盒不可解释，一旦跑偏很难 debug；
② 上下文爆炸时长程梯度消失，训练不稳定；
③ 成本高，普通公司无法复现。
当前落地状态
2025 年仍处“Demo 即产品”阶段，主要拿来做“深度研究”“长文档多跳问答”这类对“连贯性”极度敏感的场景。

二、工程拆分型（Modular Workflow Agent）

核心思路
把智能体拆成 4～6 个可插拔模块：感知、规划、工具、记忆、反思、协作。每个模块单独选型，再用 Prompt/脚本/API 胶水粘起来。
类比：乐高积木，缺哪块换哪块。
典型架构（白盒 DAG）
用户输入
├─> 感知（NLU）模块：LLM 提取意图、实体
├─> 规划（Planner）模块：LLM 生成可执行 DAG 或 ReAct 循环
├─> 工具调用层：按 DAG 节点依次/并行调用外部 API、数据库、RPA（MCP）
├─> 记忆层：Vector DB 存长期知识，Redis 存会话上下文
└─> 反思层：LLM 检查结果，决定重试或重规划
全部流程写进 YAML/JSON，可可视化拖拽。
代表玩家与产品
- LangChain / LangGraph
- n8n、Dify、FastGPT、Minus（国内）
- 企业自建：把 DeepSeek-R1 当 Planner，Claude-3 当 Coding，自研插件当工具。
优点
① 白盒可解释，节点出错直接定位；
② 不挑模型，小模型也能在单点干活；
③ 落地快，今天搭明天就能上线；
④ 符合合规审计要求（金融、医疗最爱）。
缺点
① 跨模块信息丢失，长链条一致性差；
② Prompt 一改全局联动，维护成本随节点指数上升；
③ 上限受限于最弱的那块积木。
当前落地状态
2025 年“真·赚钱”的 Agent 90% 都是这条路线：
- 电商客服：意图识别 0.1 元/次 + 订单查询插件 + 补偿策略脚本
- 数据分析：Planner→SQL→Python→可视化，全程拖拽
- 财务 RPA：读邮件→下载附件→报税网站模拟点击→生成凭证。

三、两张路线对比一张表

	端到端 RL Agent	工程拆分 Workflow Agent
训练对象	单模型全局参数	各模块独立，不训练整体
数据需求	百万级 RL 轨迹 + 超大算力	几千条提示样本即可
可解释性	黑盒	白盒，节点可调试
一致性	高（上下文全在模型内）	低（模块间靠文本传参）
落地门槛	仅限模型厂	普通公司/个人都能玩
当前商业化程度	Demo 阶段	已规模化盈利
典型场景	深度研究、多跳推理	客服、数据分析、审批流、RPA

工程拆分型的关键积木——MCP

一、MCP 到底是什么

MCP = AI 应用的“USB-C 口”
让任何大模型都能用同一套插头，去插任何工具、任何数据源，而不用再给每个组合写一遍“转接头”驱动。

官方全称：Model Context Protocol，Anthropic 在 2024 年底开源，2025 年 4 月以后国内阿里云、腾讯云、华为云全部官宣支持。

二、它为啥诞生？——“MxN”翻译地狱

先把时间拨回 2024 年上半年，那时“Agent 热”刚起，却遇到一个尴尬：

现实场景	痛苦点
公司里有 5 个大模型（GPT、Claude、Qwen…）	每接 1 个新工具，就要写 5 份“函数调用说明”
公司里有 10 个工具（查订单、查库存、发邮件…）	每换 1 个新模型，又得重新写 10 份调用格式
结果	5×10 = 50 份“翻译代码”，维护到崩溃

Anthropic 两位工程师 David & Justin 每天帮内部同事写这种“转接头”，快疯了，于是灵光一闪：

“给代码编辑器用的 LSP（Language Server Protocol）能统一插件，咱们能不能给 AI 也搞个类似协议？”
两人闭关 6 周，MCP 原型出炉，11 月 25 日正式开源。

三、MCP 在“工程拆分型 Agent”里到底扮演啥角色？

规划模块决定“我要调用 toolA”
MCP 客户端把这条“函数调用 JSON”转成统一格式的 JSON-RPC 报文，丢给 MCP 服务器
MCP 服务器再把报文译成 toolA 真正能看懂的 REST/SQL/RPC
返回结果沿原路回模型，全程对开发者透明
→ 于是“Planner”只写一次，以后换工具、换模型、甚至换云厂商，都不用改代码。

四、MCP 的三板斧：工具、资源、提示

类别	作用	生活比喻
Tool	让模型“动手”——下单、发邮件、调 API	秘书帮老板订机票
Resource	让模型“睁眼”——拉实时数据、读私有知识库	秘书把最新报表放老板桌面
Prompt	让模型“按剧本”——预设系统指令、模板	秘书提醒老板“见客户要先寒暄”

所有交互走 JSON-RPC，双向通信，客户端（AI 应用）拥有最终控制权，用户可随时插拔。

五、MCP 与 Fnction Calling 是啥关系？

一句话：

Function Calling 是“说法”，MCP 是“翻译官”

Function Calling：模型只会说“我要调用函数 buyCoffee(type=美式)”
MCP：把这句“人话”自动翻成供应商 API 能懂的 JSON，并帮你在组织内部目录里找到“已接入的美式咖啡供应商”，一键下单。

六、2025 年的生态现状

大厂态度
- OpenAI、Google、微软已官宣兼容 MCP
- 国内阿里云百炼、腾讯云 TI 平台、华为盘古都已上线“一键部署 MCP 服务器”模板
社区资源
- 官方 SDK：TypeScript、Python、Rust、Java、Go 全覆盖
- 开源市场：github.com/modelcontextprotocol 已有 200+ 现成 Server（查 MySQL、发 Slack、操作 K8s…）
典型落地场景
- 电商客服：Planner 决策→MCP 调订单/物流/退款接口，3 天可上线
- 金融研报：Claude 生成框架→MCP 实时拉 Wind/同花顺数据→自动出 PDF
- 运维值班：GPT-4 诊断→MCP 执行 K8s 命令→钉钉通知

七、使用MCP与Coze等主流平台有何区别

一句话先给答案： “搭一个 MCP Server” ≠ “在 Coze 上搭 Agent”
前者是给工具做“USB 母座”（让任何模型都能插进来用）；
后者是在图形界面里拼乐高小人（只能在该平台内部玩）。下面拆开说。

一、MCP Server 到底是啥

定义
MCP Server = 一个轻量级后端进程，负责把你的具体工具/数据包装成标准 JSON-RPC 接口，供任何兼容 MCP 的模型调用。
官方叫法：Tool Server 或 Resource Server。
它干的三件事
① 把“函数签名”暴露出去（让模型知道“我能买咖啡、查库存”）
② 把模型发来的“抽象调用”翻译成真实 API/SQL/脚本并执行
③ 把执行结果按 MCP 协议回包
最小可运行代码（Python 版，30 行）

from mcp.server import Server, tool
import requests

@tool
def weather(city: str) -> str:
    """查天气"""
    r = requests.get(f"https://api.weather.com/...&q={city}")
    return r.json()["desc"]

if __name__ == "__main__":
    Server([weather]).start()

跑起来后，任何支持 MCP 的客户端（Claude Desktop、IDE 插件、你自己的 Agent）都能自动发现 weather 工具并调用，无需再写解析代码。

二、在 Coze / 扣子 / 钉钉 Agent 平台搭 Agent 是什么体验

纯图形化
拖一个“大模型”节点 → 拖一个“插件”节点 → 用连线表示“先让模型思考，再调用插件” → 发布。
只能使用平台“货架”上的插件
想用自己公司的私有数据库？
→ 必须先封装成“私有插件”上架 → 审核 → 才能拖进来。
一旦换到别的平台，全部重搭。
运行环境锁定在平台
最终用户必须在 Coze 里对话，或者通过 Coze 提供的 Bot Key 嵌入。
模型、插件、日志、计费全在人家云里。

三、核心区别一张表

维度	自搭 MCP Server	在 Coze 等平台搭 Agent
目标	把“工具”做成通用母座	把“业务逻辑”拼成可对话机器人
入口	写代码（30 行起）	拖拽+配置
谁能调用	任何支持 MCP 的模型/应用	只能在该平台内部
数据私密性	工具跑在你本地/私有云，数据不出内网	必须上传或走平台转发
可移植性	一次写好，到处插拔	与平台强绑定，换平台重造
适合谁	开发者、企业 IT、SaaS 厂商	业务人员、运营、个人爱好者
类比	给工具做“USB-C 母口”	用乐高小人拼一个“只能站自家地毯”的玩具

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

msvcp140.dll缺失/报错？2026最新修复工具测评，这一款AI智能修复最省心！

2048 AI社区

全文 -- TileLang: A Composable Tiled Programming Model for AISystems

现代AI工作负载在训练和推理过程中高度依赖优化的计算内核。这些AI内核遵循明确的数据流模式，例如在DRAM与SRAM之间移动数据块，并对这些数据块执行一系列计算。尽管这些模式清晰可见，编写高性能内核依然复杂。要实现峰值性能，需要以硬件为中心进行细致优化，以充分利用现代加速器。虽然领域专用编译器试图减轻编写高性能内核的负担，但它们在易用性和表达性方面仍存在不足。本文提出TileLang，一种通用的分