LLM Agent入门指南：从定义到核心组件，搭建你的第一个智能代理

摘要：大语言模型驱动的智能代理（LLM Agent）凭借自主规划、动态决策和跨系统交互能力，正重塑复杂任务自动化。Agent区别于传统工具的核心在于其自主性和流程掌控力，适用于复杂决策型、规则臃肿型及非结构化数据依赖型场景。其架构由三大支柱构成：模型（决策大脑）、工具（行动手脚）和指令（操作手册），三者协同实现闭环任务执行。本文通过天气查询代理的实战案例（查询天气并自动保存结果），演示了基于Op

GISer_Jing

474人浏览 · 2026-01-25 19:17:38

GISer_Jing · 2026-01-25 19:17:38 发布

引言

随着大语言模型（LLM）在推理能力、多模态交互和工具调用领域的突破性发展，一种全新的LLM驱动系统——Agent（智能代理）正重塑工作流自动化的边界。不同于传统自动化工具的“被动触发”和简单聊天机器人的“单步响应”，Agent具备自主规划、动态决策和跨系统交互的能力，能独立完成复杂多步骤任务。本文将从Agent的核心定义出发，拆解其适用场景与三大基础组件，通过可视化框架图和实战代码，带你快速搭建第一个可落地的智能代理。

一、什么是LLM Agent？—— 不止于“智能工具”的自主系统

核心定义

Agent的本质是能代表用户独立完成目标的智能系统，其核心区别于传统软件和简单LLM应用的关键在于“自主性”和“流程掌控力”：

传统软件：需用户手动触发每一步操作（如手动筛选数据、提交表单），无自主决策能力；
简单LLM应用（单轮问答、情感分析）：仅处理单一任务，不涉及多步骤流程规划；
LLM Agent：能自主拆解任务、选择工具、纠正错误，直到完成用户设定的完整目标（如自动处理保险理赔、筛选支付欺诈交易）。

必备核心特征

一个合格的LLM Agent必须满足以下两个条件，缺一不可：

基于LLM的决策与流程管理：能识别任务完成状态，主动调整行动策略，失败时可暂停并交还控制权给用户；
动态工具调用能力：可访问外部系统（API、数据库、网页等），根据任务状态选择合适工具，且在规则约束内运行。

二、什么时候该构建LLM Agent？—— 三大高价值场景

Agent并非“万能解决方案”，当传统确定性方法（如规则引擎、简单脚本）力不从心时，才是它的最佳用武之地。优先选择以下三类场景：

场景类型	核心特征	实战案例
复杂决策型	需精细化判断、处理例外情况或上下文敏感决策，无统一规则可遵循	客服退款审批（需结合用户历史、订单金额、投诉原因综合判断）、医疗账单异常检测
规则臃肿型	传统规则集庞大复杂，维护成本高、更新易出错，难以覆盖边缘案例	供应商安全审查（涉及数十项合规条款，且随政策动态变化）、电商平台违规商品判定
非结构化数据依赖型	需解读自然语言、提取文档关键信息或实现人类化交互	家庭保险理赔处理（需分析保单条款、用户报案描述、医疗凭证）、法律合同关键信息提取

小贴士：如果你的需求能用“if-else”规则或单步工具调用解决，无需强行构建Agent——确定性方案往往更高效、低成本。

三、Agent的核心架构：三大支柱撑起自主能力

任何LLM Agent的底层架构都离不开“模型、工具、指令”三大核心组件，三者协同构成Agent的“大脑、手脚、操作手册”，缺一不可。

1. 模型（Model）：Agent的“决策大脑”

模型是Agent的核心，负责任务拆解、工具选择、进度判断和错误修正。选择模型的核心原则是“按需匹配，先优后省”：

基准先行：先用能力最强的模型（如GPT-4o、Claude 3 Opus）搭建原型，建立性能基线，确保核心逻辑可行；
梯度适配：简单任务（如意图分类、数据检索）用小型模型（如GPT-3.5-turbo、Llama 3 8B）优化成本和响应延迟；
复杂任务（如退款审批、欺诈分析）保留大模型，保证决策准确性和鲁棒性。

2. 工具（Tools）：Agent的“行动手脚”

工具扩展了Agent与外部系统交互的能力，让Agent从“只能思考”变为“能做事”。按功能可分为三大类，需遵循“标准化、可复用”的设计原则：

工具类型	核心作用	典型示例
数据类工具	获取任务所需上下文或信息（只读）	查询CRM数据库、读取PDF文档、网页搜索、调用天气API
行动类工具	执行具体操作或修改外部数据（可写）	发送邮件/短信、更新客户记录、提交退款申请、创建订单
编排类工具	调用其他专项Agent完成细分任务	翻译Agent、格式转换Agent、数据清洗Agent

工具设计关键：每个工具需明确名称、参数说明和返回格式，避免Agent因“理解歧义”导致调用失败。

3. 指令（Instructions）：Agent的“操作手册”

清晰的指令是Agent可靠运行的前提，能减少歧义、降低错误率。编写指令的四大最佳实践：

复用现有资源：基于公司知识库、操作流程文档生成指令，保证与业务规则一致；
拆分复杂任务：将大目标拆解为小步骤（如“先查询用户订单状态，再判断是否符合退款条件，最后调用退款工具”）；
明确行动边界：每个步骤对应具体操作（如“调用get_order_status工具，参数为用户提供的订单号”），不留解读空间；
覆盖边缘案例：提前定义异常处理规则（如“用户未提供订单号时，需追问‘请提供你的订单号以便查询’”）。

四、Agent工作流程框架图（Mermaid可视化）

框架解读（闭环逻辑）

输入层：用户通过自然语言或结构化指令提出需求（如“查询我上周的订单状态，并申请退款”）；
指令层：为模型提供“操作手册”，明确Agent的职责、流程和边界；
核心协同层：模型主导决策，工具负责执行，指令约束行为，三者联动推进任务；
执行循环：模型不断判断任务进度，调用工具获取结果，修正行动方向，直到满足退出条件；
输出层：向用户返回清晰结果（如“你的订单状态为‘已发货’，符合退款条件，已为你提交退款申请，预计3个工作日到账”）。

五、实战：搭建你的第一个Agent——天气查询与结果保存代理

基于OpenAI Agents SDK，我们将搭建一个简单但完整的天气查询Agent，具备“查询天气”和“保存结果”两大功能，全程无需用户手动操作。

1. 环境准备

首先安装依赖包：

pip install openai-agents python-dotenv

2. 完整代码（含注释）

from agents import Agent, function_tool, Runner
import datetime
from dotenv import load_dotenv
import os

# 加载环境变量（OpenAI API密钥）
load_dotenv()
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")

# 1. 定义工具1：查询天气（模拟真实API调用，实际场景替换为第三方天气API）
@function_tool
def get_weather(location: str) -> str:
    """
    查询指定城市的实时天气信息
    参数：location - 城市名称（如“北京”“上海”）
    返回：格式化的天气描述（日期+天气+气温+风力）
    """
    # 模拟API返回结果（真实场景替换为 requests.get 调用）
    today = datetime.date.today()
    weather_data = {
        "北京": f"{today} 晴，气温10-18℃，东北风2级",
        "上海": f"{today} 多云转晴，气温15-23℃，东南风1级",
        "广州": f"{today} 雷阵雨，气温22-28℃，西南风3级"
    }
    return weather_data.get(location, f"暂未查询到{location}的天气信息")

# 2. 定义工具2：保存查询结果（模拟数据库存储）
@function_tool
def save_weather_result(location: str, weather_info: str) -> str:
    """
    将天气查询结果保存到本地（模拟数据库）
    参数：
        location - 城市名称
        weather_info - get_weather工具返回的天气信息
    返回：保存状态提示
    """
    # 模拟数据库写入操作（真实场景可替换为MySQL、MongoDB等）
    with open("weather_records.txt", "a", encoding="utf-8") as f:
        timestamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        f.write(f"[{timestamp}] 城市：{location}，天气：{weather_info}\n")
    return f"查询结果已成功保存至本地，记录时间：{timestamp}"

# 3. 构建Agent：整合模型、工具和指令
weather_agent = Agent(
    name="WeatherQueryAgent",  # Agent名称
    instructions="""
    你是一个专业的天气查询与记录代理，严格遵循以下流程工作：
    1. 接收用户需求：必须获取“城市名称”（若用户未提供，追问“请告诉我你要查询哪个城市的天气？”）；
    2. 查询天气：调用get_weather工具，传入城市名称获取天气信息；
    3. 保存结果：无论用户是否明确要求，自动调用save_weather_result工具保存查询结果；
    4. 反馈用户：用简洁语言返回天气信息，并告知保存状态。
    注意：仅处理天气相关需求，若用户需求无关，回复“我仅支持天气查询与记录服务，请提供相关需求~”
    """,
    tools=[get_weather, save_weather_result]  # 绑定工具
)

# 4. 运行Agent，接收用户输入
async def run_agent():
    user_input = input("请输入你的需求：")
    # 执行Agent，获取结果
    result = await Runner.run(weather_agent, user_input)
    # 输出结果
    for message in result.new_messages:
        print("\nAgent回复：", message.content)

# 启动Agent
if __name__ == "__main__":
    import asyncio
    asyncio.run(run_agent())

3. 运行效果演示

场景1：用户提供完整需求

请输入你的需求：查询上海的天气
Agent回复：上海 2024-10-15 多云转晴，气温15-23℃，东南风1级
查询结果已成功保存至本地，记录时间：2024-10-15 14:30:22

场景2：用户未提供城市名称

请输入你的需求：查一下天气
Agent回复：请告诉我你要查询哪个城市的天气？

场景3：用户输入无关需求

请输入你的需求：今天吃什么
Agent回复：我仅支持天气查询与记录服务，请提供相关需求~

4. 代码关键说明

工具定义：通过@function_tool装饰器标准化工具，明确参数和功能描述，帮助Agent正确识别；
指令设计：拆分“获取信息→查询→保存→反馈”四步流程，覆盖“用户信息不全”“无关需求”等边缘案例；
运行机制：Runner.run()启动Agent的执行循环，自动处理工具调用和结果整合，直到满足退出条件。

六、入门总结与后续方向

搭建LLM Agent的核心是“夯实基础”：先明确自身需求是否符合Agent的适用场景，再围绕“模型、工具、指令”三大组件设计核心逻辑，无需一开始追求复杂架构。

核心要点回顾

定义：Agent的核心是“自主完成任务”，而非“简单响应”；
场景：优先选择复杂决策、规则臃肿、依赖非结构化数据的需求；
组件：模型选“先优后省”，工具做“标准化”，指令写“清晰无歧义”；
实践：从简单场景（如天气查询、订单查询）入手，快速验证核心逻辑。

后续进阶方向

编排模式：当任务复杂度提升，可学习单Agent→多Agent的编排（Manager模式、去中心化模式）；
安全护栏：搭建数据隐私保护、恶意攻击防御、高风险操作管控的安全机制；
性能优化：通过模型选型、提示工程、工具缓存等方式降低成本、提升响应速度。

LLM Agent的入门门槛远低于想象，只要掌握“定义→场景→组件→实践”的逻辑，就能快速搭建出能解决实际问题的智能代理。动手尝试起来，开启你的Agent开发之旅吧！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【7】Kilo 工具模块设计详解

模块化设计：工具按功能分组，便于管理和扩展按需加载：根据工作模式和配置动态启用工具安全可控：严格的参数验证和权限控制可扩展性：支持 MCP 协议集成第三方工具用户友好：清晰的工具描述和使用示例// 工具基类// 工具参数名称// ... 更多参数] as const// 工具显示名称// ... 更多工具// 工具使用接口// 具体工具类型（示例）是一个开放协议,允许 AI 应用与外部工具和数据源