AI 入门—— 一起来学Function Call、MCP、Agent

本文探讨了人工智能领域中Function Call、MCP和Agent三个核心概念的区别与联系。Function Call是大模型直接调用外部函数或API的能力，用于增强模型功能；MCP（Model Context Protocol）是LLM与外部工具交互的标准化通信协议，提供统一接口框架；Agent则是具备自主决策能力的智能实体，能够动态规划并调用各类工具完成任务。三者构成层级关系：Functi

CrazyMo_

617人浏览 · 2025-12-11 17:26:20

CrazyMo_ · 2025-12-11 17:26:20 发布

引言

在人工智能快速发展的当下Agent、MCP、Function Call这三个概念频繁出现在各种技术讨论中，但它们之间存在相似性，容易被混淆。

本文所有知识整理自网络和个人的一些浅薄的理解，仅供参考，因为有些理解我不知道是否是正确的

一、Function Call

Function Call函数调用是大模型调用外部函数或API以获取信息、执行计算或与系统交互的机制，Function Call绑定到大模型身上后使得大模型可以调用外部函数或API以增强大模型能力，是连接自然语言与程序化工具的桥梁。

1、核心价值

突破模型闭域限制：通过调用外部工具（如数据库、API、专业软件）扩展LLM能力边界
提升响应可靠性：将开放域问题转化为确定性函数执行（如数学计算转Wolfram Alpha调用）
实现动作代理：从纯文本生成升级为可编程行为（如发送邮件、修改代码）
通常与大模型绑定，作为模型的一部分，增强大模型能力的直接方式

2、Function Call 时序图

以下是ChatGPT 利用Function call解答“北京今日气温？”的时序图：
在这里插入图片描述

3、Function call如何嵌入到模型中？

Function Call 就是升级版的ChatGPT插件，就是把ChatGPT插件的过程API化，是深度绑定到模型中，模型运行时直接调用的，就像是模型内部的协议一样，通过结构化的描述文件来简化通信流程。

ChatGPT 插件的机制：你的服务端给它提供一个描述文件，就是告诉 ChatGPT 怎么调用你的接口，以及这些接口都能做什么。那么当用户在使用 ChatGPT 的时候，如果 ChatGPT 认为用户提的某些问题，你的插件能够更好的解决，那么 ChatGPT 就会直接去调用你插件的接口。
https://www.swiftcafe.io/post/openai-api

二、什么是MCP?

MCP（Model Context Protocol）是大语言模型（LLM）与外部数据源、工具及服务之间的交互的一种通用的开放通信协议。其核心目标是通过统一的接口框架，解决AI模型与真实环境连接不足的问题，使模型能够动态感知上下文并调用多样化工具，从而扩展其功能边界。

三、MCP Server

1、MCP 架构

在这里插入图片描述

MCP 协议基于C-S架构，核心组件包括：

MCP Hosts主机: 像 Claude Desktop、IDE 或 AI 工具这样的程序，它们希望通过 MCP 访问数据
MCP Clients客户端: 维护与服务器 1:1 连接的协议客户端
MCP Servers服务器: 每个暴露特定功能的轻量级程序通过标准化的模型上下文协议
Local Data Sources 本地数据源: 您计算机的文件、数据库和服务，MCP 服务器可以安全地访问
Remote Services 远程服务: 可以通过互联网（例如，通过 API）访问的外部系统，MCP 服务器可以连接到

MCP通过标准化接口和动态工具发现机制，正在重构AI与工具生态的协作范式。其本质是构建LLM与真实世界的通用适配层，既解决了模型与环境的割裂问题，又降低了开发者的集成成本

2、MCP的通信机制

消息格式：基于JSON-RPC 2.0协议，支持请求（双向）、响应、通知（单向）三类消息类型。
传输方式：
- 本地通信：通过标准输入输出（stdio）传输，适用于IDE等本地工具集成。
- 远程通信：使用SSE（Server-Sent Events）实现HTTP长连接，支持跨网络服务调用

3、MCP Server的核心功能

3.1、动态工具发现

MCP Server 允许 LLM 运行时动态获取已注册的工具列表（如数据库查询、文件操作等），无需硬编码集成，极大提升灵活性和扩展性。

3.2、权限控制与安全执行

支持细粒度权限管理（开发者/用户/模型层级），并通过沙箱技术（如 Docker、WASM）隔离工具执行环境，保障数据安全。

3.3、资源暴露与工具调用

可安全暴露本地文件、数据库记录或远程 API 服务，供 LLM 通过自然语言指令调用，例如查询 PostgreSQL 数据库或生成 3D 建模指令。

3.4、实时通信与上下文管理

支持双向通信（如 SSE 事件流），实时推送数据更新至 LLM，维持会话状态以优化多轮交互

4、MCP Server的应用

在这里插入图片描述

5、MCP 的开发（略）

四、什么是Agent？

Agent（智能体）指能够自主动态感知环境、规划任务并调用外部能力（外部服务、外部工具、数据库、MCP、Function Call等）以实现目标的实体，具备环境交互、决策与学习能力。与普通程序最大的不同，Agent具有环境感知的动态响应能力（如自动驾驶实时避障），而传统程序仅按预设流程执行。Agent可以：

可以调用外部服务（工具、数据库等）
具备自主决策能力，完成复杂任务
可以调用MCP、Function Call等能力

1、Agent 的特征

其核心特征是“自主代理，动态规划”，代替用户或系统完成任务。

自主决策：能够根据目标制定计划
状态记忆：能够保持上下文连贯性
迭代改进: 能够根据反馈动态调整策略
情境感知：通过多模态传感器融合（如Tesla的8摄像头+雷达系统）
一般的核心工作流模型为：环境输入 → 感知滤波 → 状态评估 → 策略生成 → 动作执行 → 效果反馈。

2、Agent的形态

根据形态可分为：

软件Agent（如聊天机器人、推荐算法）
物理Agent（如自动驾驶汽车、工业机器人）
混合Agent（如无人机搭载视觉识别系统）

3、Agent的工作时序图

在这里插入图片描述

五、Function Call vs MCP vs Agent

Function Call是指大模型直接调用预定义函数的能力，允许模型生成请求参数并整合结果。例如模型可以通过Function Call查询天气或执行简单的数学计算。它的本质是“代码级工具”，通常与模型绑定部署。Agent是一种具备自主决策能力的AI实体，能够感知环境、规划任务并自主调用工具（包括MCP Server和Function Call）完成目标。例如，一个Agent可以接到“撰写AI趋势报告”的任务后，自动抓取数据、分析内容并生成报告。 MCP Server的功能相对单一，专注于提供数据和工具接口的工具箱。例如，它可以抓取网页、读取文件或调用API，但不具备推理能力。

1、复杂度与能力方面

在这里插入图片描述

2、响应方式

在这里插入图片描述

3、三者协同

在这里插入图片描述

4、功能对比

在这里插入图片描述

5、总结

AI Agent 是一个智能系统，它可以自主运行以实现特定目标。传统的 AI 聊天仅提供建议或者需要手动执行任务，AI Agent 则可以分析具体情况，做出决策，并自行采取行动。而AI Agent 可以利用 MCP 提供的功能描述来理解更多的上下文，并在各种平台/服务自动执行任务。如果Agent想要更好地完成任务，一般需要接入足够多的外部工具，而外部工具的接入千差万别；Function Call是大模型本身的一种能力，可以调用外部函数或API以增强大模型能力，但它同样面临着不同开发者自由定义导致的不标准问题；MCP则是给AI应用提供了一套标准化协议，方便AI应用更好地访问外部工具，以提升大模型的响应能力。

参考文档：
https://zhuanlan.zhihu.com/p/28064225853
https://mmssai.com/archives/31934
https://www.woshipm.com/ai/6198952.html

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

数据堆成山却不会分析？虎贲等考 AI：让科研数据 “开口说话”

数据分析的核心意义，是通过数据挖掘学术价值，而非在技术操作上耗费精力。虎贲等考 AI 数据分析功能，用智能技术剥离繁琐的机械劳动，让科研人从 “数据处理” 中解放出来，聚焦研究主题的核心创新与学术思考。从数据导入到结论输出，从图表生成到学术解读，它能帮你用最短的时间完成最专业的数据分析，让每一份数据都能转化为有说服力的学术成果，让科研之路更高效、更顺畅！

2048 AI社区

开题报告 “一次过” 秘籍！虎贲等考 AI：30 分钟搞定专业框架，答辩不慌

2048 AI社区

移动端跨平台适配技术框架：从发展到展望

移动端跨平台适配技术框架的发展与展望移动端跨平台技术经历了从Hybrid（如Cordova）到原生渲染（如React Native），再到自渲染（如Flutter）的演进，逐步解决性能与效率的平衡问题。当前主流框架包括Flutter、React Native及国内鸿蒙生态的ArkUI-X，形成多元化竞争格局。未来趋势聚焦AI深度融合（代码生成与性能优化）、原生级体验（引擎优化与功能集成）和全场景