本文详细介绍了AI智能体开发的全流程,从连接大模型、理解工具调用和MCP协议,到构建智能体Agent的多种架构模式(RAG、ReAct、Plan-and-Execute等)。重点分析了LangChain框架的核心能力和LangGraph的三大原理(状态、节点、边),并通过地图产品AI交互的实战案例,展示了如何将理论知识应用到实际项目中。适合想要入门AI智能体开发的开发者阅读收藏。


最近终于开始Agent开发实战了。我们要基于一个地图产品,做AI交互。初期先做一些基于地图信息的查询问答功能,后期再扩招到复杂的分析功能, 最后做AI绘制功能。

团队对于市面上的智能体框架和开发流程都不是很熟悉。我花了一周多的时间调研,一周的时间开发演示demo,主要测试学习langchain框架的能力,以及能否支持项目的开发。

就目前调研下来的功能来说。开发AI智能体,入门选langchain没错,架构很成熟,能力很强,基本上所有的场景都可以覆盖,可以很好管理起大型的AI应用架构。而且js、java、python各种语言都支持。

上手很快,但是用好的话还是多花些时间学习他的底层实现逻辑。

这篇文档,会介绍一下AI应用开发的一些基础知识。

  • 连接模型

  • MCP的介绍以及如何实现MCP客户端、服务端

  • 工具调用

  • 智能架构分析

  • langchain的介绍以及几种应用模式

  • LangGraph原理分析

这篇仅仅是一个入门引导,告诉你所用到的基础知识,每一模块需要你自己再去深入研究学习。

  1. 连接大模型

这个比较好理解,就是通过API接口调用大模型服务。

1.1 使用接口连接大模型

模型就是一个在线的服务。可以通过API接口,用http调用模型。

官方文档:https://platform.openai.com/docs/api-reference/introduction

几个重要的参数:

  • model 模型

  • prompt 提示词

  • input 用户输入

  • temperature 温度,范围在0到2之间。越大输出内容的随机性越高。

  • tools 工具,支持工具调用的模型可以传此参数,让模型选择需要执行的工具。

  • max_tool_calls 最大工具调用次数,一次响应中可处理的对内置工具的总调用次数上限。此最大次数适用于所有内置工具调用的总和

请求案例:

输出内容:

如果有工具调用,会输出tool_calls,内容是需要调用的工具以及参数:

1.2 官方封装的SDK

OpenAI官方封窗的SDK,可以简化调用步骤。也有的平台自己封装了一层,例如ollama,会有一些参数的差异。

https://platform.openai.com/docs/libraries?language=javascript

langchain也有专门的llm包。主流的模型基本都支持。

文档地址:https://docs.langchain.com/oss/javascript/integrations/llms

  1. 理解工具调用

工具调用是应用程序与模型之间的多轮对话:

流程:

  1. 定义工具(函数)

  2. 告诉 LLM 有哪些工具可用

  3. 用户提问

  4. LLM 决定是否调用工具

  5. 执行工具并返回结果

  6. LLM 基于结果生成最终答案

工具调用最重要的2步就是

  • 定义工具

  • 根据模型相应结果,执行工具

这就是如何把工具的定义和执行,独立管理起来。并使用一个协议通用化,让所有的大模型都可以调用,这就是的MCP协议诞生。

用代码演示一下:这里是放了几个关键的代码。

  1. 理解MCP协议

大模型的工具调用,使用JSON Schema 来定义参数结构,告诉大模型,有哪些工具使用,模型会根据用户的意图选择合适的工具调用。

MCP是一个模型上下文协议。顾名思义,它只是一个协议。类似Http协议一样。是一个通信规则。大家都遵守这个规则,这样每个人开发的工具,只要遵守这个协议,大家都能使用。极大的加速生态的发展。

借助MCP,模型可以连接数据源(例如本地文件、数据库)、工具(搜索引擎、计算器)和工作流(例如专用提示词),从而使它们能够获取关键信息并执行任务。

MCP的官方文档:https://modelcontextprotocol.io/docs/getting-started/intro

3.1 MCP又分为客户端和服务端。

  • 服务端:负责提供能力,如搜索、数据库访问或执行命令;

  • 客户端:负责连接模型与这些服务端,实现上下文扩展与工具调用。

如果用上面的工具调用对比

  • 服务端提供工具的定义+工具的实际执行。

  • 客户端负责将工具的传递给模型,执行工具的调用

3.2 MCP SDK

MCP也有SDK,提供核心功能和全面的协议支持

这是官方提供的开发工具包:https://modelcontextprotocol.io/docs/sdk

3.3 简易的MCP服务端

引入SDK -> 创建服务实例 -> 注册资源/工具 -> 连接到通信器

安装,引入SDK,创建服务实例

注册工具:

将 MCP 服务器连接到 Streamable HTTP 传输。

3.4 简易的MCP客户端

引入并新建客户端

通过StreamableHTTPClientTransport连接到服务器,实现和服务的通信。

获取可用工具列表

  1. 构建智能体Agent

4.1 什么是 Agent 框架?

Agent 框架(Agent Framework)

是让 LLM 拥有「目标理解、规划、行动、记忆」能力的结构化系统。

它把原本“问答式”的语言模型,变成能自动决策、执行工具、管理任务的智能体。

“语言模型 + 记忆 + 工具 + 调度 = 智能体(Agent)”

4.2 Agent 框架设计模式(常见架构)

4.2.1 RAG模式 (Retrieval-Augmented Generation)

检索增强生成

核心思想: 解决了 LLM 无法获知“私有数据”和“实时数据”的痛点。它是一种特殊的“工具使用”,这个工具就是“搜索引擎”或“向量数据库”。

工作流程:

1.索引 (Index): (离线)将你的私有文档(PDF, MarkDown…)切片、向量化,并存入向量数据库。

2.检索 (Retrieve): (在线)当用户提问时,系统首先将用户的问题向量化,去数据库中检索出最相关的“上下文”片段。

3.增强 (Augment): 系统将这些“上下文”片段拼接到原始提示词(Prompt)中,形成一个“增强提示词”。

4.生成 (Generate): 将这个“增强提示词”发给 LLM,并明确指示:“请根据我提供的上下文来回答问题”。

**应用框架:**LlamaIndex 是围绕此模式构建的;LangChainSpring AI 都有强大的 RAG 模块。

4.2.2 ReAct 模式(Reason-Act Loop)

Agent 框架最基本、最核心的运行循环。它认为 LLM 不能一步到位解决问题,而是需要像人一样“边想边做”,在“思考”和“行动”之间迭代,直到问题解决。

工作流程:

1.Reason (思考): 用户提出问题(Task)。LLM 进行“思考”,分析现状和目标,决定下一步是回答还是行动。

2.Act (行动): 如果 LLM 决定行动,它会选择一个“工具”(Tool)并生成调用该工具所需的参数。

3.Observe (观察): 系统执行工具(如调用 API、查询数据库),并获得一个“观察结果”(Observation)。

4.Repeat (循环): LLM 接收这个“观察结果”,进入下一次“思考”循环,评估新信息,并决定下一步动作。

5.Final Answer (终止): 当 LLM 认为所有信息都已足够,它会生成最终答案,循环结束。

应用框架: 几乎所有 Agent 框架(LangChain, LlamaIndex, Spring AI)的默认 Agent 逻辑都是基于 ReAct 模式的。

4.2.3 Plan-and-Execute 计划-执行 模式

与 ReAct 的“走一步看一步”不同,此模式主张“谋定而后动”。它将“规划”和“执行”彻底分离。

工作流程:

  1. 规划 (Planning): 首先,一个专门的“规划者” Agent(或是一个特定的提示)会根据用户最终目标,生成一个完整的、多步骤的计划(A plan)。

  2. 执行 (Executing): 然后,一个或多个“执行者” Agent 会严格按照这个计划,一步一步地执行,不再(或很少)返回“规划者”那里修改计划。

与 ReAct 的对比:

  • ReAct: 适合探索性、需要实时反馈的任务(如“帮我查资料”)。

  • Plan-and-Execute: 适合目标明确、步骤固定的任务(如“帮我写一份市场分析报告,包含A、B、C三个部分”)。

✅ 优点:结构清晰,适合长任务

⚠️ 缺点:计划可能不够灵活

框架:

  • LangChain (Python/JS): 提供了 PlanAndExecute Agent Executor
4.2.4 Multi-Agent 调度模式

多个 Agent 各司其职,由调度器协调:

  • Planner:规划任务

  • Worker:执行工具调用

  • Reviewer:检查结果并反馈

类似「公司分工结构」,CrewAI、OpenDevin 就是这种模式。

4.2.5 图(Graph)与状态机模式 (Graph / State Machine)

ReAct 模式的终极进化。ReAct 是一个简单的“循环”,但在复杂任务中,我们需要的不是“循环”,而是有向图(Graph)

工作流程:

  1. 定义节点 (Nodes): 你将 Agent 的不同“能力”定义为图上的“节点”(Node)。例如:“工具调用”是一个节点,“RAG”是一个节点,“人类输入”是一个节点,“生成最终答案”是另一个节点。

  2. 定义边 (Edges): 你定义节点之间的“边”(Edge),即路由逻辑

  3. 路由逻辑 (Routing): 关键在于,这个“路由逻辑”可以是动态的。你可以让 LLM 在每一步执行后,决定下一步应该“跳转”到哪个节点。

应用框架: 这是 LangGraph (LangChain 的子项目) 的核心模式。它允许你用代码显式地定义 Agent 的“心智流图”,使 Agent 的行为极其可控且易于调试。例如,你可以定义一个规则:“如果工具调用失败3次,则自动跳转到‘请求人类帮助’节点”。

4.3 常见 Agent 框架对比以及选择

**如何选择:**如果你不确定,从 LangChain 开始。

  • 它是事实上的行业标准,学习它的概念(ReAct, Tools, Memory)对你理解所有其他框架都有帮助。先用它构建一个单 Agent

如果你的核心是 RAG,从 LlamaIndex 开始。

  • 它在处理数据方面是最好的,能让你快速构建出基于私有知识的智能体。

当你发现“单 Agent 搞不定”,再转向多 Agent。

  • 当一个任务过于复杂,一个 Agent 总是“想不清楚”时,就是引入多 Agent 的时机。

  • 用 CrewAI 开始实验,它的结构化方法能帮你理清思路。

  • 在 CrewAI 遇到瓶颈时(如需要更灵活的 Agent 间通信),再去研究 AutoGen

  1. langchain

LangChain 是一个用于 构建基于大语言模型应用的开发框架

它的核心目标是

让开发者更容易地将大模型与外部数据、逻辑流程、工具系统结合,构建出可交互、可调用的智能体(Agent)。

简单来说,LangChain = LLM + 数据 + 工具 + 记忆 + 推理流程。

LangChain底层是基于LangGraph,一个专注于智能体的编排管理的底层框架。

5.1 什么是 LangChain?能做什么?原理是什么?边界在哪里?

LangChain 是一个让 AI 模型(如 GPT-4、Claude)能够使用工具、访问数据、记住对话的开发框架。

❌ 普通 AI:就像一个只会说话的顾问

  • 只能回答问题

  • 没有工具

  • 没有记忆

✅ LangChain + AI:就像一个有助手团队的超级顾问

  • 可以搜索网络 🔍

  • 可以查数据库 📊

  • 可以写代码并执行 💻

  • 可以记住之前的对话 🧠

  • 可以调用其他专家 AI 👥

5.2 LangChain 能做什么?

1️⃣ 让 AI 使用工具(Tool Calling)

能做的事情

  • 🔍 搜索互联网

  • 📧 发送邮件

  • 📅 操作日历

  • 💾 查询数据库

  • 🧮 执行计算

  • 📝 读写文件

  • 🎨 生成图片

  • 🔊 语音合成

  • …任何你能想到的 API 调用

***

2️⃣ 管理复杂对话流程(Agents & Workflows)

核心能力

  • 🔄 ReAct 循环 :思考 → 行动 → 观察 → 重复

  • 📋 任务规划 :自动分解复杂任务

  • 🎯 目标导向 :持续执行直到完成

  • 🔀 条件分支 :根据结果选择不同路径

***

3️⃣ 记忆管理(Memory)

记忆类型

  • 💬 **对话历史**:记住所有聊天内容

  • 📝 **长期记忆**:跨会话保存用户信息

  • 🧠 **语义记忆**:向量存储,智能检索相关信息

  • 📊 **状态管理**:保存任务进度、变量等

***

4️⃣ 连接数据源(RAG - 检索增强生成)

应用场景

  • 📚 企业知识库问答

  • 📄 文档分析

  • 🔍 智能搜索

  • 📖 代码库问答

***

5️⃣ 多 Agent 协作(Multi-Agent Systems)

  1. LangGraph

langchain就是基于LangGraph构建的。

LangGraph 是 LangChain 体系中一个功能强大的库,它专门用于构建有状态、可循环、可控制的 AI 应用,特别是复杂的 Agent(智能体)。

理解 LangGraph 原理的核心在于,它把 Agent 的工作流程从一个简单的“线性链条”升级为了一个“图(Graph)”。****LangGraph像一个流程图。它可以有分支(如果A,则B;否则C),也可以有循环(执行A,然后检查B,如果不满足条件,就重新执行A)。

这种图结构对于构建能思考、能修正、能与人交互的复杂 Agent 至关重要。

6.1 LangGraph 的三大核心原理

LangGraph 的工作原理主要建立在三个基本概念之上:状态(State)节点(Nodes)边(Edges)

6.1.1 📈 状态 (State):Agent 的“记忆”

状态是 LangGraph 的核心。它是一个共享的数据结构,在整个图的运行过程中持续存在并被传递

  • 作用:它扮演着 Agent 的“短期记忆”和“工作区”。

  • 如何工作:每个节点在执行时都会读取当前的状态,执行完任务后,更新这个状态,然后将更新后的状态传递给下一个节点。

  • 示例:状态可以包含 {"messages": [...], "current_task": "...", "tool_output": "..."}。一个节点读取 messages,另一个节点添加 tool_output

6.1.2 ⚙️ 节点 (Nodes):Agent 的“执行者”

节点是图中的“工作单元”或“行动者”。它们是实际执行任务的组件。

  • 作用:一个节点就是一个 Python 函数或 LangChain 的 Runnable(如一个 LLM 调用、一个工具执行)。它负责处理一项具体工作。

  • 如何工作:节点接收当前的状态作为输入,执行其逻辑(例如,调用 LLM 进行思考、调用工具获取信息),然后返回一个状态更新(一个字典,包含要更改或添加的数据)。

  • 示例

  • 一个 agent 节点:调用 LLM 判断下一步该做什么。

  • 一个 action 节点:根据 LLM 的决定,执行一个工具(如搜索)。

  • 一个 updater 节点:将工具的执行结果添加到消息历史中。

6.1.3 ↔️ 边 (Edges):Agent 的“决策逻辑”

是图中的“连接器”和“决策者”。它们定义了节点之间的流程和方向,决定了在当前节点完成后,接下来应该去哪个节点。

  • 作用:边控制着整个 Agent 的逻辑流。

  • 如何工作:LangGraph 中有两种主要的边:

  • 常规边 (Normal Edges):这是简单的、固定的连接。例如,add_edge("node_A", "node_B") 意味着在 node_A 完成后,总是去执行 node_B

  • 条件边 (Conditional Edges):这是 LangGraph 最强大的功能。它是一个函数,会检查当前的“状态”,并根据状态中的信息动态决定下一步去哪里。

6.2 示例:一个 Agent 的工作流程

假设我们要构建一个“能使用工具的AI助手”,它的工作流程如下:

6.2.1 定义状态 (State)

messages: 聊天历史列表。

6.2.2 定义节点 (Nodes)
call_model:调用 LLM。输入是 messages,输出是 LLM 的回复。
call_tool:执行工具。输入是 LLM 回复中的工具调用请求,输出是工具的运行结果。
6.2.3 定义边 (Edges)

1.入口:设置 call_model 为起始节点.

2.条件边 (核心逻辑):在 call_model 之后,添加一个名为 should_continue 的条件边。这个“边函数”会检查 call_model 节点输出的 LLM 回复:

  • 如果 LLM 只是正常回复(没有请求工具):流程结束,将回复返回给用户。

  • 如果 LLM 请求调用工具(例如搜索):流程转向 call_tool 节点。

3.常规边:在 call_tool 之后,添加一条常规边,循环回 call_model 节点。这样,Agent 就能带着工具的运行结果再去调用 LLM,让 LLM 根据新信息进行下一步思考。

这个流程就实现了一个“思考 -> 行动 -> 观察 -> 再思考”的循环,这是所有高级 Agent 的基础。****下面一个LangGraph示例核心代码:

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐