在上一篇文章中,介绍了工具调用的完整流程,包括工具创建、工具绑定、调用工具、将调用结果返回给大语言模型(LLM),以及由LLM输出最终结果,相当于实现了一个智能体(Agent)的雏形。

本文将会介绍什么是 Agent,并通过 LangChain 中的 AgentExecutor 来构建智能体。

需要注意的一点是:AgentExecutor 虽然仍然保留在 LangChain 中,但官方已经不再推荐使用,而是更倾向于使用 LangGraph Agents。关于 LangGraph 的内容会在后续文章中详细展开。

虽然,AgentExecutor 已经不推荐使用,但AgentExecutor 作为一个经典且易于理解的Agent实现方式,依旧是学习 Agent 的良好切入点,因此,本文将会对AgentExecutor 进行详细讲解。
在这里插入图片描述

文中所有示例代码:https://github.com/wzycoding/langchain-study

一、什么Agent智能体

AI Agent(AI 智能体)是一种能够自主调用工具完成特定任务的系统。它不仅具备自然语言处理能力,还能进行智能决策、问题解决、与外部环境交互以及执行操作。

这些 AI Agent 可以应用于各种场景,帮助企业解决实际问题,例如自动化运维、代码生成、智能客服等场景。

AI Agent 的核心是大语言模型(LLM)。因此,AI Agent 也常被称为 LLM 智能体。由于 LLM 的知识受训练数据限制,推理能力也存在一定局限,AI Agent 技术则通过工具调用来弥补这些不足,从而获取最新信息、优化工作流、拆解任务,最终实现更复杂的功能。

与传统 LLM 相比,AI Agent 多了几个关键能力:

(1)目标初始化与规划:在用户给定目标和工具的前提下,Agent 能够将任务拆解并制定执行计划。简单任务可以边执行边调整,复杂任务则会先做整体规划。

(2)借助工具进行推理:当遇到无法直接解决的问题时,Agent 会调用外部工具补充知识,例如联网搜索或调用 API。

(3)学习与反思:Agent 能够记住与用户的交互,并不断调整优化自己的行为。

二、构建ReAct智能体

ReAct 全称是 Reasoning + Acting(推理 + 行动),是2022 年 Google 在一篇论文中提出的思路。

它的核心思想是:

  • 让LLM在回答问题时,不直接生成答案,而是像人类一样先思考,再决定是否要调用工具,然后基于观察继续推理,最后得出答案。
  • 这种模式很适合工具调用场景(搜索、数据库查询、API调用等),因为模型可以“边推理边用工具补充信息”,最终给出完整的答案。

2.1 定义Google Serper工具

在创建智能体之前,首先创建工具,第一个工具是LangChain内置的Google Serper工具,通过Google Serper可以进行谷歌搜索,通过搜索结果,LLM可以获取到实时信息。

在使用Google Serper之前需要去申请对应的API KEY,初次注册会送3000次免费调用额度。

Google Serper:https://serper.dev/

.env下配置Google Serper API Key

# Google SerperAPI KEY
SERPER_API_KEY=**************************************

定义工具信息

# 1.定义google_serper工具
class GoogleSerperInput(BaseModel):
    query: str = Field(description="执行谷歌搜索的查询语句")


google_serper_tool = GoogleSerperRun(
    name="google_serper_tool",
    description=(
        "谷歌搜索工具"
        "如果要获取实时内容可以调用这个工具"
        "调用该工具传入搜索关键词相当于完成了一次谷歌搜索"
    ),
    args_schema=GoogleSerperInput,
    api_wrapper=GoogleSerperAPIWrapper()
)

2.2 定义根据IP获取定位信息工具

第二个工具是此前已经创建过的,通过高德地图API获取IP对应定位。

该API文档地址如下:

高德地图IP定位:https://lbs.amap.com/api/webservice/guide/api/ipconfig

.env文件中配置高德开放平台API KEY

# 高德开放平台API KEY
GAODE_API_KEY=***************************

定义工具信息

class GaoDeIPLocationInput(BaseModel):
    """IP定位入参"""
    ip: str = Field(description="ip地址")


class GaoDeIPLocationTool(BaseTool):
    """根据IP定位位置工具"""
    name = "ip_location_tool"
    description = "当你需要根据IP,获取定位信息时,可以调用这个工具"
    args_schema = GaoDeIPLocationInput

    def _run(self, ip: str) -> str:
        api_key = os.getenv("GAODE_API_KEY")
        if api_key is None:
            return"请配置GAODE_API_KEY"
        url = "https://restapi.amap.com/v3/ip?ip={ip}&key={key}".format(ip=ip, key=api_key)

        session = requests.session()
        response = session.request(
            method="GET",
            url=url,
            headers={"Content-Type": "application/json; charset=UTF-8"},
        )
        result = response.json()
        return result.get("province") + result.get("city")

之后,创建工具对象,并将工具对象添加到tools列表中。

ip_location_tool = GaoDeIPLocationTool()

tools = [google_serper_tool, ip_location_tool]

2.3 创建ReAct智能体

接下来,为ReAct智能体创建一个提示词模板,要注意的是:这段提示词模板不能进行汉化,因为LangChain内部是根据英文关键词去解析提示词模板的,如果进行汉化执行时会发生错误。

# 3.创建提示词模板
prompt = ChatPromptTemplate.from_template(
    "Answer the following questions as best you can. You have access to the following tools:\n\n"
    "{tools}\n\n"
    "Use the following format:\n\n"
    "Question: the input question you must answer\n"
    "Thought: you should always think about what to do\n"
    "Action: the action to take, should be one of [{tool_names}]\n"
    "Action Input: the input to the action\n"
    "Observation: the result of the action\n"
    "... (this Thought/Action/Action Input/Observation can repeat N times)\n"
    "Thought: I now know the final answer\n"
    "Final Answer: the final answer to the original input question\n\n"
    "Begin!\n\n"
    "Question: {input}\n"
    "Thought:{agent_scratchpad}"
)

这段提示词来自于

https://smith.langchain.com/hub/hwchase17/react

这段提示词的含义是:让LLM基于“推理+行动”去回答问题,过程中可以调用一些外部工具,而不是直接给出答案,并且给出了工具清单,在执行过程中,要严格遵守以下思考流程:

  • Question:用户问了什么问题。
  • Thought:思考下一步要做什么
  • Action:要调用哪个工具(必须是给定的 {tool_names} 之一)。
  • Action Input:工具需要输入什么参数
  • Observation:工具返回了什么结果

上面这几步可以多次循环直到找到答案:

  • Thought: 我现在知道答案了。
  • Final Answer: 最终答案是xxx。

下一步,创建一个基于gpt-4o的LLM对象,然后使用create_react_agent()方法创建ReAct智能体,需要传入llmprompttoolstools_renderer,其中tools_renderer参数传递一个函数,该函数的作用是:将工具信息格式化成字符串,并放到提示词模板中的{tools}中。

之后,创建智能体执行者AgentExecutor,传入agenttoolsverbose,其中verbose为True表示智能体执行过程中推理过程会打印出来。

# 4.创建LLM
llm = ChatOpenAI(model="gpt-4o", temperature=0)

# 5.创建智能体
agent = create_react_agent(
    llm=llm,
    prompt=prompt,
    tools=tools,
    tools_renderer=render_text_description_and_args,
)

# 6.创建智能体执行者
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 7.调用智能体执行者,进行提问
print(agent_executor.invoke({"input": "北京今天天气预报"}))

最后,调用智能体执行者并传入问题,执行结果如下,可以控制台打印了Agent的推理过程,最终成功返回了正确答案。

我需要使用谷歌搜索工具来获取北京今天的天气预报。
Action: google_serper_tool
Action Input: "北京今天天气预报"星期一 08/18. 雷阵雨 · 31; 星期二 08/19. 中雨 · 29; 星期三 08/20. 雷阵雨 · 31; 星期四 08/21. 中雨 · 32; 星期五 08/22. 多云 · 32. 22日(今天). 雷阵雨. 23. <3级 · 23日(明天). 阴转小雨. 29/22. <3级 · 24日(后天). 小雨转多云. 28/21. <3级 · 25日(周一). 多云. 31/21. <3级 · 26日(周二). 阴转小雨. 11:00 · 24.6. 3.3m/s. 北风. 1012.5hPa ; 14:00 · 26.3. 3.2m/s. 东北风. 1011.6hPa ; 17:00 · 27.8. 3.3m/s. 东风. 1010.9hPa. 星期五 08/22 · 西北风 · 33℃ · 雷阵雨. 南风 ; 星期六 08/23 · 北风 · 30℃ · 小雨. 北风 ; 星期日 08/24 · 东北风 · 28℃ · 多云. 西北风. 今天白天 最高气温33℃ 晴转多云,山区有雷阵雨 23级 北转南风 · 今天夜间 最低气温23℃ 多云间阴,有分散性雷阵雨 2级左右,局地阵风7级左右 偏南风 · 明天白天 最高气温31... 今天. 8/23. 84° 70°. 有幾場陣雨,主要在晚間. 幾場陣雨 ; 周日. 8/24. 82° 68°. 多雲轉晴. 晴朗 ; 周一. 8/25. 89° 69°. 變暖. 局部多雲轉多雲. 今天. 22 ~ 29°C 阴. 北风1. 优 · 24. 21 ~ 28°C 小雨. 东北风1.. 周五(29日) 多云转晴 30/21℃ 西南风转北风 <3级 · 周六(30日) 晴转阴 30/21℃ 西南风转北风 <3级 · 周日(31日) 阴转晴 30/19℃ 西南风转北风 <3级 · 周一(1日) 多云转雨 31/ ... 今天白天 最高气温33℃ 晴转多云,山区有雷阵雨 23级 北转南风 · 今天夜间 最低气温23℃ 多云间阴,有分散性雷阵雨 2级左右,局地阵风7级左右 偏南风 · 明天白天 最高气温31... 北京市今天实况:24度多云,湿度:75%,北风:2级。白天:30,雨。 夜间:小雨,22度,天气较热,墨迹天气建议您选择短袖上衣加七分裤的搭配,针织衫是进出空调房的必备单品。I now know the final answer.

Final Answer: 北京今天的天气预报显示,白天最高气温为33℃,天气晴转多云,山区有雷阵雨,风力为23级,北风转南风。夜间最低气温为23℃,多云间阴,有分散性雷阵雨,风力约为2级,局地阵风可达7级左右,偏南风。当前实况温度为24℃,多云,湿度75%,北风2级。

> Finished chain.
{'input': '北京今天天气预报', 'output': '北京今天的天气预报显示,白天最高气温为33℃,天气晴转多云,山区有雷阵雨,风力为2至3级,北风转南风。夜间最低气温为23℃,多云间阴,有分散性雷阵雨,风力约为2级,局地阵风可达7级左右,偏南风。当前实况温度为24℃,多云,湿度75%,北风2级。'}

三、构建工具调用智能体

工具调用智能体是一种基于聊天模型+外部工具的智能体架构。

它的核心思想是:

  • LLM 负责理解自然语言、生成调用指令
  • 外部工具负责执行实际功能(如计算、搜索、数据库查询、API 调用)。

在创建工具调用智能体之前,需要定义工具、创建工具,工具相关的代码与上面ReAct智能体的代码相同,不再进行赘述,接下来,定义工具调用智能体的提示词模板:

# 3.创建提示词模板
prompt = ChatPromptTemplate.from_messages(
    [("system", "你是实用的聊天助手"),
     ("placeholder", "{chat_history}"),
     ("human", "{input}"),
     ("placeholder", "{agent_scratchpad}")]
)

这段提示词来自于

https://smith.langchain.com/hub/hwchase17/openai-functions-agent

继续创建存储历史记忆信息的ConversationBufferMemory,并将记忆存储到chat_history中,历史记忆相关的知识在前面我们已经介绍过,想了解的同学可以看这篇文章:LangChain框架入门08:全方位解析记忆组件

接下来,通过create_tool_calling_agent方法创建工具调用智能体,传入相应参数,最终,创建AgentExecutor传入智能体和工具参数。

最后,创建一个循环,在循环中获取用户输入来得到原始的提问,调用智能体执行者时,除了传入用户问题之外,也传入历史记忆信息列表,在AI回答完成之后,将用户提问和回答结果一起保存到历史记忆信息中。

# 4.创建历史记忆信息
memory = ConversationBufferMemory(
    return_messages=True,
    chat_memory=FileChatMessageHistory("chat_history.txt")
)

# 5.创建LLM
llm = ChatOpenAI(model="gpt-4o", temperature=0)

# 6.创建智能体
agent = create_tool_calling_agent(llm, tools, prompt)

# 7.创建智能体执行者
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 8.调用智能体执行者,进行提问
while True:
    question = input("Human:")
    response = agent_executor.invoke(
        {"input": question, "chat_history": memory.load_memory_variables({})["history"]})
    print(f"AI:" + response.get("output"))
    memory.save_context({"human": question}, {"ai": response.get("output")})

执行结果如下,控制台输出内容清晰的展示了,Agent调用了ip_location_tools工具,并最终给出了正确的位置信息,之后用户再次提问提问过哪个IP地址,AI准确无误的给出了答案,说明Agent已经实现了历史记忆功能。

Human:这个115.239.211.92IP地址在哪个位置

Invoking: `ip_location_tool` with `{'ip': '115.239.211.92'}`


浙江省杭州市IP地址115.239.211.92位于中国浙江省杭州市。

> Finished chain.
AI:IP地址115.239.211.92位于中国浙江省杭州市。
Human:我刚刚问你哪个ip地址了
你刚刚问的是IP地址115.239.211.92> Finished chain.
AI:你刚刚问的是IP地址115.239.211.92

四、总结

本文介绍了基于 LangChain中AgentExecutor 构建两种不同的智能体:ReAct 智能体和工具调用智能体。

ReAct 智能体基于推理+行动的思路,让 LLM 在解决问题时遵循 Question → Thought → Action → Observation 的循环流程,适合需要多步骤推理的复杂任务。其推理过程透明,便于调试和理解 Agent 的决策逻辑。

工具调用智能体让LLM 专注理解用户意图和选择合适的工具,外部工具负责执行具体功能。这种方式支持对话历史记忆,更适合构建交互式对话应用。

通过本文,相信你已经掌握了如何使用AgentExecutor构建智能体,并且了解智能体的基本工作原理。

到此LangChain入门系列专栏就更新完毕了,感谢各位的支持,创作不易,如果觉得有用,欢迎关注大志说编程👏🏻👏🏻👏🏻,LangGraph入门教程正在筹备中,不久的将来就会和大家见面,欢迎大家持续关注!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐