前言

随着大语言模型(LLM)技术的飞速发展,AI 应用正在从单一的"问答机器"演进为能够自主规划、调用工具、协作完成复杂任务的"智能体系统"。在这个演进过程中,Agent(智能体)Skills(技能)MCP(模型上下文协议) 三个核心概念构成了现代 AI 智能体框架的基石。

本文将深入解析这三大概念的含义、工作原理及相互关系,帮助开发者和技术爱好者建立清晰的认知体系。

一、Agent(智能体):会思考会行动的 AI

1.1 什么是 Agent?

Agent(智能体)是一种能够感知环境、自主决策并采取行动以实现目标的 AI 系统。与传统的被动式 AI(用户问一句答一句)不同,Agent 具备以下核心能力:

  • 目标导向:给定一个最终目标,Agent 能够自行拆解子任务
  • 多步推理:通过 ReAct、Chain-of-Thought 等推理模式逐步解决问题
  • 工具调用:主动调用外部工具(搜索、代码执行、数据库查询等)获取信息
  • 记忆管理:维护短期(对话上下文)和长期(向量数据库)记忆
  • 自我反思:对执行结果进行评估并调整策略

1.2 Agent 的工作流程

一个典型的 Agent 工作循环(Agent Loop)如下:

  1. 感知(Perceive):接收用户输入、环境状态或其他 Agent 的消息
  2. 思考(Think):基于 LLM 进行推理,判断下一步应该做什么
  3. 行动(Act):调用工具、执行代码或生成回复
  4. 观察(Observe):接收行动结果,更新上下文
  5. 循环(Loop):重复上述过程直到目标达成

1.3 Agent 的分类

根据架构设计,Agent 可以分为以下几类:

  • 单 Agent:单个 LLM 驱动的智能体,适合简单任务
  • 多 Agent(Multi-Agent):多个专业化 Agent 协作,如 AutoGen、CrewAI 框架
  • 分层 Agent:Orchestrator Agent 负责规划,Worker Agent 负责执行

二、Skills(技能):Agent 的能力模块

2.1 什么是 Skills?

Skills(技能)是赋予 Agent 执行特定任务能力的功能模块。可以把 Skills 理解为 Agent 的"工具箱"——每一个 Skill 就是一个专门的工具或能力单元。

在 Claude Code、AutoGen、Semantic Kernel 等框架中,Skills 的形态有所不同,但核心思想一致:将可复用的能力封装为独立模块,供 Agent 按需调用

2.2 Skills 的典型分类

  • 原生技能(Native Skills):直接由代码实现,如数学计算、文本处理、文件操作
  • 语义技能(Semantic Skills):基于 LLM Prompt 实现,如摘要提取、情感分析、代码生成
  • 复合技能(Composite Skills):组合多个原生/语义技能,完成更复杂的任务流
  • 工具技能(Tool Skills):封装外部 API 或服务,如调用天气接口、数据库查询、浏览器操作

2.3 Claude Code 中的 Skills

在 Claude Code 场景下,Skills 是一种特殊的可调用指令集,以 Markdown 文件形式定义,存储在 .claude/skills/ 目录中。每个 Skill 文件包含:

  • 触发条件:描述何时应该调用该 Skill
  • 执行步骤:详细的操作流程和规范
  • 工具权限:该 Skill 可以使用的工具列表

例如,/commit/review-pr/test-driven-development 都是预定义的 Skills,Agent 可以在适当的时机自动触发或由用户手动调用。

2.4 Skills 的设计原则

  • 单一职责:每个 Skill 只做一件事,做好一件事
  • 可组合性:Skills 之间可以互相调用和组合
  • 可测试性:每个 Skill 应该有明确的输入输出,便于单独测试
  • 幂等性:重复执行同一 Skill 不应产生副作用

三、MCP(模型上下文协议):连接 AI 与世界的标准接口

3.1 什么是 MCP?

MCP(Model Context Protocol,模型上下文协议) 是由 Anthropic 于 2024 年底发布的开放协议,旨在解决 AI 模型与外部数据源、工具之间的标准化集成问题。

在 MCP 出现之前,每个 AI 应用都需要为不同的工具(数据库、文件系统、API 服务等)编写专用的集成代码,维护成本极高。MCP 的出现就像 AI 领域的"USB 标准"——定义了统一的连接协议,让任何兼容 MCP 的客户端都能接入任何 MCP Server。

3.2 MCP 的架构组成

MCP 采用客户端-服务端架构:

  • MCP Host:宿主程序(如 Claude Desktop、Claude Code),负责管理 MCP 连接
  • MCP Client:内嵌在 Host 中的协议客户端,维护与 Server 的 1:1 连接
  • MCP Server:轻量级服务进程,向 AI 暴露特定能力(工具、资源、提示词)

3.3 MCP Server 提供的三类能力

  • Tools(工具):可供 LLM 调用的函数,如执行 shell 命令、查询数据库、发送 HTTP 请求
  • Resources(资源):可供 LLM 读取的数据,如文件内容、数据库记录、API 响应
  • Prompts(提示词):预定义的提示词模板,帮助 LLM 更好地完成特定任务

3.4 MCP 的典型应用场景

  • 文件系统访问:让 AI 直接读写本地文件
  • 数据库操作:连接 PostgreSQL、SQLite 等数据库进行查询
  • 浏览器自动化:通过 Puppeteer MCP Server 控制浏览器
  • 代码执行:在沙箱环境中运行代码并返回结果
  • 第三方服务集成:GitHub、Slack、Jira 等服务的 MCP 封装

四、三者的关系与协作模式

4.1 整体架构关系

Agent、Skills 和 MCP 三者在 AI 系统中扮演不同的角色,但紧密协作:

  • Agent 是"大脑":负责理解目标、制定计划、协调资源
  • Skills 是"能力库":定义 Agent 知道如何做哪些事情
  • MCP 是"感觉器官和手臂":让 Agent 能够感知外部世界并执行实际操作

4.2 实际协作示例

以"帮我分析 GitHub 仓库并生成测试报告"为例:

  1. 用户向 Agent 发出请求
  2. Agent 触发 Skilltest-driven-development,获取测试规范
  3. Agent 通过 MCP 的 GitHub Server 拉取仓库代码
  4. Agent 通过 MCP 的文件系统 Server 读取本地配置
  5. Agent 执行测试,通过 MCP 的 Shell Server 运行测试命令
  6. Agent 触发 Skillverification-before-completion,验证结果
  7. Agent 生成最终报告返回给用户

五、总结与展望

Agent、Skills 和 MCP 三者共同构建了现代 AI 智能体系统的完整生态:

  • Agent 提供了智能决策的核心引擎
  • Skills 提供了可复用、可扩展的能力抽象层
  • MCP 提供了与外部世界交互的标准化协议

随着 MCP 生态的不断完善,越来越多的服务商正在提供官方 MCP Server;Skills 体系也在向更细粒度、更智能化的方向演进;而 Agent 框架则在向多模态、多 Agent 协作的方向突破。

理解这三大概念,是每一位 AI 开发者进入智能体时代的必修课。未来,掌握 Agent 编排、Skills 设计和 MCP 集成的开发者,将在 AI 应用开发领域占据核心竞争优势。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐