LangChain框架入门19: 构建你的第一个 AI 智能体
本文介绍了AI Agent(智能体)的概念及其核心能力,包括目标规划、工具调用和学习反思。通过LangChain的AgentExecutor构建了一个ReAct智能体,结合Google Serper搜索工具和高德地图IP定位工具,实现边推理边调用工具解决问题的流程。虽然AgentExecutor已不推荐使用,但作为经典实现仍适合学习。文章详细讲解了智能体工作原理、工具定义及实现步骤,为构建更复杂的
在上一篇文章中,介绍了工具调用的完整流程,包括工具创建、工具绑定、调用工具、将调用结果返回给大语言模型(LLM),以及由LLM输出最终结果,相当于实现了一个智能体(Agent)的雏形。
本文将会介绍什么是 Agent,并通过 LangChain 中的 AgentExecutor
来构建智能体。
需要注意的一点是:AgentExecutor
虽然仍然保留在 LangChain 中,但官方已经不再推荐使用,而是更倾向于使用 LangGraph Agents。关于 LangGraph 的内容会在后续文章中详细展开。
虽然,AgentExecutor
已经不推荐使用,但AgentExecutor
作为一个经典且易于理解的Agent实现方式,依旧是学习 Agent 的良好切入点,因此,本文将会对AgentExecutor
进行详细讲解。
文中所有示例代码:https://github.com/wzycoding/langchain-study
一、什么Agent智能体
AI Agent(AI 智能体)是一种能够自主调用工具完成特定任务的系统。它不仅具备自然语言处理能力,还能进行智能决策、问题解决、与外部环境交互以及执行操作。
这些 AI Agent 可以应用于各种场景,帮助企业解决实际问题,例如自动化运维、代码生成、智能客服等场景。
AI Agent 的核心是大语言模型(LLM)。因此,AI Agent 也常被称为 LLM 智能体。由于 LLM 的知识受训练数据限制,推理能力也存在一定局限,AI Agent 技术则通过工具调用来弥补这些不足,从而获取最新信息、优化工作流、拆解任务,最终实现更复杂的功能。
与传统 LLM 相比,AI Agent 多了几个关键能力:
(1)目标初始化与规划:在用户给定目标和工具的前提下,Agent 能够将任务拆解并制定执行计划。简单任务可以边执行边调整,复杂任务则会先做整体规划。
(2)借助工具进行推理:当遇到无法直接解决的问题时,Agent 会调用外部工具补充知识,例如联网搜索或调用 API。
(3)学习与反思:Agent 能够记住与用户的交互,并不断调整优化自己的行为。
二、构建ReAct智能体
ReAct 全称是 Reasoning + Acting(推理 + 行动),是2022 年 Google 在一篇论文中提出的思路。
它的核心思想是:
- 让LLM在回答问题时,不直接生成答案,而是像人类一样先思考,再决定是否要调用工具,然后基于观察继续推理,最后得出答案。
- 这种模式很适合工具调用场景(搜索、数据库查询、API调用等),因为模型可以“边推理边用工具补充信息”,最终给出完整的答案。
2.1 定义Google Serper工具
在创建智能体之前,首先创建工具,第一个工具是LangChain内置的Google Serper工具,通过Google Serper可以进行谷歌搜索,通过搜索结果,LLM可以获取到实时信息。
在使用Google Serper之前需要去申请对应的API KEY,初次注册会送3000次免费调用额度。
Google Serper:https://serper.dev/
在.env
下配置Google Serper API Key
# Google SerperAPI KEY
SERPER_API_KEY=**************************************
定义工具信息
# 1.定义google_serper工具
class GoogleSerperInput(BaseModel):
query: str = Field(description="执行谷歌搜索的查询语句")
google_serper_tool = GoogleSerperRun(
name="google_serper_tool",
description=(
"谷歌搜索工具"
"如果要获取实时内容可以调用这个工具"
"调用该工具传入搜索关键词相当于完成了一次谷歌搜索"
),
args_schema=GoogleSerperInput,
api_wrapper=GoogleSerperAPIWrapper()
)
2.2 定义根据IP获取定位信息工具
第二个工具是此前已经创建过的,通过高德地图API获取IP对应定位。
该API文档地址如下:
高德地图IP定位:https://lbs.amap.com/api/webservice/guide/api/ipconfig
在.env
文件中配置高德开放平台API KEY
# 高德开放平台API KEY
GAODE_API_KEY=***************************
定义工具信息
class GaoDeIPLocationInput(BaseModel):
"""IP定位入参"""
ip: str = Field(description="ip地址")
class GaoDeIPLocationTool(BaseTool):
"""根据IP定位位置工具"""
name = "ip_location_tool"
description = "当你需要根据IP,获取定位信息时,可以调用这个工具"
args_schema = GaoDeIPLocationInput
def _run(self, ip: str) -> str:
api_key = os.getenv("GAODE_API_KEY")
if api_key is None:
return"请配置GAODE_API_KEY"
url = "https://restapi.amap.com/v3/ip?ip={ip}&key={key}".format(ip=ip, key=api_key)
session = requests.session()
response = session.request(
method="GET",
url=url,
headers={"Content-Type": "application/json; charset=UTF-8"},
)
result = response.json()
return result.get("province") + result.get("city")
之后,创建工具对象,并将工具对象添加到tools
列表中。
ip_location_tool = GaoDeIPLocationTool()
tools = [google_serper_tool, ip_location_tool]
2.3 创建ReAct智能体
接下来,为ReAct智能体创建一个提示词模板,要注意的是:这段提示词模板不能进行汉化,因为LangChain内部是根据英文关键词去解析提示词模板的,如果进行汉化执行时会发生错误。
# 3.创建提示词模板
prompt = ChatPromptTemplate.from_template(
"Answer the following questions as best you can. You have access to the following tools:\n\n"
"{tools}\n\n"
"Use the following format:\n\n"
"Question: the input question you must answer\n"
"Thought: you should always think about what to do\n"
"Action: the action to take, should be one of [{tool_names}]\n"
"Action Input: the input to the action\n"
"Observation: the result of the action\n"
"... (this Thought/Action/Action Input/Observation can repeat N times)\n"
"Thought: I now know the final answer\n"
"Final Answer: the final answer to the original input question\n\n"
"Begin!\n\n"
"Question: {input}\n"
"Thought:{agent_scratchpad}"
)
这段提示词来自于
https://smith.langchain.com/hub/hwchase17/react
这段提示词的含义是:让LLM基于“推理+行动”去回答问题,过程中可以调用一些外部工具,而不是直接给出答案,并且给出了工具清单,在执行过程中,要严格遵守以下思考流程:
- Question:用户问了什么问题。
- Thought:思考下一步要做什么
- Action:要调用哪个工具(必须是给定的
{tool_names}
之一)。 - Action Input:工具需要输入什么参数
- Observation:工具返回了什么结果
上面这几步可以多次循环直到找到答案:
- Thought: 我现在知道答案了。
- Final Answer: 最终答案是xxx。
下一步,创建一个基于gpt-4o
的LLM对象,然后使用create_react_agent()
方法创建ReAct智能体,需要传入llm
、prompt
、tools
、tools_renderer
,其中tools_renderer
参数传递一个函数,该函数的作用是:将工具信息格式化成字符串,并放到提示词模板中的{tools}
中。
之后,创建智能体执行者AgentExecutor
,传入agent
、tools
、verbose
,其中verbose
为True表示智能体执行过程中推理过程会打印出来。
# 4.创建LLM
llm = ChatOpenAI(model="gpt-4o", temperature=0)
# 5.创建智能体
agent = create_react_agent(
llm=llm,
prompt=prompt,
tools=tools,
tools_renderer=render_text_description_and_args,
)
# 6.创建智能体执行者
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
# 7.调用智能体执行者,进行提问
print(agent_executor.invoke({"input": "北京今天天气预报"}))
最后,调用智能体执行者并传入问题,执行结果如下,可以控制台打印了Agent的推理过程,最终成功返回了正确答案。
我需要使用谷歌搜索工具来获取北京今天的天气预报。
Action: google_serper_tool
Action Input: "北京今天天气预报"星期一 08/18. 雷阵雨 · 31℃ ; 星期二 08/19. 中雨 · 29℃ ; 星期三 08/20. 雷阵雨 · 31℃ ; 星期四 08/21. 中雨 · 32℃ ; 星期五 08/22. 多云 · 32℃. 22日(今天). 雷阵雨. 23℃. <3级 · 23日(明天). 阴转小雨. 29℃/22℃. <3级 · 24日(后天). 小雨转多云. 28℃/21℃. <3级 · 25日(周一). 多云. 31℃/21℃. <3级 · 26日(周二). 阴转小雨. 11:00 · 24.6℃. 3.3m/s. 北风. 1012.5hPa ; 14:00 · 26.3℃. 3.2m/s. 东北风. 1011.6hPa ; 17:00 · 27.8℃. 3.3m/s. 东风. 1010.9hPa. 星期五 08/22 · 西北风 · 33℃ · 雷阵雨. 南风 ; 星期六 08/23 · 北风 · 30℃ · 小雨. 北风 ; 星期日 08/24 · 东北风 · 28℃ · 多云. 西北风. 今天白天 最高气温33℃ 晴转多云,山区有雷阵雨 2、3级 北转南风 · 今天夜间 最低气温23℃ 多云间阴,有分散性雷阵雨 2级左右,局地阵风7级左右 偏南风 · 明天白天 最高气温31℃ ... 今天. 8/23. 84° 70°. 有幾場陣雨,主要在晚間. 幾場陣雨 ; 周日. 8/24. 82° 68°. 多雲轉晴. 晴朗 ; 周一. 8/25. 89° 69°. 變暖. 局部多雲轉多雲. 今天. 22 ~ 29°C 阴. 北风1级. 优 · 24. 21 ~ 28°C 小雨. 东北风1级. 优. 周五(29日) 多云转晴 30℃/21℃ 西南风转北风 <3级 · 周六(30日) 晴转阴 30℃/21℃ 西南风转北风 <3级 · 周日(31日) 阴转晴 30℃/19℃ 西南风转北风 <3级 · 周一(1日) 多云转雨 31℃/ ... 今天白天 最高气温33℃ 晴转多云,山区有雷阵雨 2、3级 北转南风 · 今天夜间 最低气温23℃ 多云间阴,有分散性雷阵雨 2级左右,局地阵风7级左右 偏南风 · 明天白天 最高气温31℃ ... 北京市今天实况:24度多云,湿度:75%,北风:2级。白天:30度,雨。 夜间:小雨,22度,天气较热,墨迹天气建议您选择短袖上衣加七分裤的搭配,针织衫是进出空调房的必备单品。I now know the final answer.
Final Answer: 北京今天的天气预报显示,白天最高气温为33℃,天气晴转多云,山区有雷阵雨,风力为2至3级,北风转南风。夜间最低气温为23℃,多云间阴,有分散性雷阵雨,风力约为2级,局地阵风可达7级左右,偏南风。当前实况温度为24℃,多云,湿度75%,北风2级。
> Finished chain.
{'input': '北京今天天气预报', 'output': '北京今天的天气预报显示,白天最高气温为33℃,天气晴转多云,山区有雷阵雨,风力为2至3级,北风转南风。夜间最低气温为23℃,多云间阴,有分散性雷阵雨,风力约为2级,局地阵风可达7级左右,偏南风。当前实况温度为24℃,多云,湿度75%,北风2级。'}
三、构建工具调用智能体
工具调用智能体是一种基于聊天模型+外部工具的智能体架构。
它的核心思想是:
- LLM 负责理解自然语言、生成调用指令
- 外部工具负责执行实际功能(如计算、搜索、数据库查询、API 调用)。
在创建工具调用智能体之前,需要定义工具、创建工具,工具相关的代码与上面ReAct智能体的代码相同,不再进行赘述,接下来,定义工具调用智能体的提示词模板:
# 3.创建提示词模板
prompt = ChatPromptTemplate.from_messages(
[("system", "你是实用的聊天助手"),
("placeholder", "{chat_history}"),
("human", "{input}"),
("placeholder", "{agent_scratchpad}")]
)
这段提示词来自于
https://smith.langchain.com/hub/hwchase17/openai-functions-agent
继续创建存储历史记忆信息的ConversationBufferMemory
,并将记忆存储到chat_history中,历史记忆相关的知识在前面我们已经介绍过,想了解的同学可以看这篇文章:LangChain框架入门08:全方位解析记忆组件。
接下来,通过create_tool_calling_agent
方法创建工具调用智能体,传入相应参数,最终,创建AgentExecutor传入智能体和工具参数。
最后,创建一个循环,在循环中获取用户输入来得到原始的提问,调用智能体执行者时,除了传入用户问题之外,也传入历史记忆信息列表,在AI回答完成之后,将用户提问和回答结果一起保存到历史记忆信息中。
# 4.创建历史记忆信息
memory = ConversationBufferMemory(
return_messages=True,
chat_memory=FileChatMessageHistory("chat_history.txt")
)
# 5.创建LLM
llm = ChatOpenAI(model="gpt-4o", temperature=0)
# 6.创建智能体
agent = create_tool_calling_agent(llm, tools, prompt)
# 7.创建智能体执行者
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
# 8.调用智能体执行者,进行提问
while True:
question = input("Human:")
response = agent_executor.invoke(
{"input": question, "chat_history": memory.load_memory_variables({})["history"]})
print(f"AI:" + response.get("output"))
memory.save_context({"human": question}, {"ai": response.get("output")})
执行结果如下,控制台输出内容清晰的展示了,Agent调用了ip_location_tools
工具,并最终给出了正确的位置信息,之后用户再次提问提问过哪个IP地址,AI准确无误的给出了答案,说明Agent已经实现了历史记忆功能。
Human:这个115.239.211.92IP地址在哪个位置
Invoking: `ip_location_tool` with `{'ip': '115.239.211.92'}`
浙江省杭州市IP地址115.239.211.92位于中国浙江省杭州市。
> Finished chain.
AI:IP地址115.239.211.92位于中国浙江省杭州市。
Human:我刚刚问你哪个ip地址了
你刚刚问的是IP地址115.239.211.92。
> Finished chain.
AI:你刚刚问的是IP地址115.239.211.92。
四、总结
本文介绍了基于 LangChain中AgentExecutor
构建两种不同的智能体:ReAct 智能体和工具调用智能体。
ReAct 智能体基于推理+行动的思路,让 LLM 在解决问题时遵循 Question → Thought → Action → Observation 的循环流程,适合需要多步骤推理的复杂任务。其推理过程透明,便于调试和理解 Agent 的决策逻辑。
工具调用智能体让LLM 专注理解用户意图和选择合适的工具,外部工具负责执行具体功能。这种方式支持对话历史记忆,更适合构建交互式对话应用。
通过本文,相信你已经掌握了如何使用AgentExecutor构建智能体,并且了解智能体的基本工作原理。
到此LangChain入门系列专栏就更新完毕了,感谢各位的支持,创作不易,如果觉得有用,欢迎关注大志说编程👏🏻👏🏻👏🏻,LangGraph入门教程正在筹备中,不久的将来就会和大家见面,欢迎大家持续关注!
更多推荐
所有评论(0)