从零开始，亲手开发你的第一个AI大模型！（一）基础知识

我们将使用 Google 开源的 Agent Development Kit（ADK），结合 Gemini 大语言模型和 MCP 工具协议，从零构建一个智能航班查询 Agent

菜鸟Java码农

454人浏览 · 2025-12-31 10:13:57

菜鸟Java码农 · 2025-12-31 10:13:57 发布

在刚刚结束的 Google Cloud Next ’25 大会上，谷歌发布了诸多重磅更新。如果你观看了整场发布会，你就会感受到 AI 代理（Agents）技术带来的巨大冲击。今年的关键词可以说是：Agent、Agent、还是 Agent！ 从 Agent Development Kit（ADK）、Agent-to-Agent 通讯协议（A2A Protocol）、AgentSpace，到 Gemini 2.5 Pro Preview 旗舰大模型，无不体现了 Google 正在构建一个高度代理化的 AI 未来。

🎯 我们的最终目标

我们将使用 Google 开源的 Agent Development Kit（ADK），结合 Gemini 大语言模型和 MCP 工具协议，从零构建一个智能航班查询 Agent，实现以下功能：

💡 当用户输入诸如“帮我查查从亚特兰大到拉斯维加斯 5 月 5 号的航班”这样的请求时，Agent 会自动调用 MCP 接口，查找实时航班信息，并以结构化方式返回给用户。

实现过程中，你将学会：

什么是 ADK，它如何让你像“搭积木”一样构建 Agent；
如何用 MCP 连接外部工具，如航班搜索 API；
如何使用 Gemini 模型赋予 Agent 智能对话能力；
如何通过 ADK 的运行器和会话服务构建完整应用框架。

🙋什么是 ADK（Agent Development Kit）？

ADK 是 Google 开源的 Python 工具包，用于开发、评估与部署智能 AI 代理系统。它支持从简单的单代理任务，到复杂的多代理编排工作流，具有模块化、可扩展的架构设计。它致力于让开发者快速构建、组合和部署智能 AI Agent 应用。

它本质上提供了一种模块化框架，让你：

像拼乐高一样组合 Agent；
像注册插件一样集成工具；
像写脚本一样定义业务逻辑；

并支持多种运行模式（如交互式调用、多轮对话、异步执行等）。

ADK 本身并不提供大模型，它是一个 Agent 编排与运行系统。你可以通过它接入 Gemini、Claude、OpenAI 等模型，也可以接入 MCP、LangChain、RAG、函数调用等工具链。

简单来说：

MCP 提供“工具接口”；

Gemini 提供“语言大脑”；

ADK 提供“流程骨架”；

这三者配合，就能构建起真正实用的 AI Agent。

🙋在 ADK 中，Agent 是什么？

在 ADK（Agent Development Kit）中，Agent（智能体）是系统的核心单位。可以将 Agent 理解为一个具备感知（Perception）、推理（Reasoning）、计划（Planning）和执行（Action）能力的自主智能单元。每一个 Agent 通过调用工具（Tools）、协调任务流（Workflow）和使用语言模型（LLM）等能力来完成复杂任务。

但 ADK 中的 Agent 不是一个大模型，也不是一个 chatbot，而是一个由多个组件组合而成的智能执行体。我们可以把它看作一个“任务调度大脑”，其本质是“结构化智能 + 语义驱动 + 工具调用 + 状态记忆”。

🔧 一个 Agent 通常由以下部分组成：

组成部分	作用说明
LLM（大语言模型）	作为智能核心，负责理解用户指令、生成内容、调用工具的指令等
Tools（工具）	外部功能模块，比如航班搜索、数据库查询、天气 API 等
Planner（任务规划器）	把复杂任务拆解成步骤，决定执行顺序
Memory（记忆）	保留历史对话、已执行步骤、变量状态等，用于多轮对话或流程追踪
Executor（执行器）	根据规划结果调用工具、处理返回结果，并继续推进任务流程
AgentContext	一个"运行环境"，用于管理每次任务中的上下文、日志、缓存、中间变量等

ADK提供的三种Agent类型

1. LLM Agents（如 LlmAgent、Agent）

使用大型语言模型（LLM）来进行上下文理解、逻辑推理、任务规划与执行决策。
非常适合应对需要语言理解、动态应变与非结构化任务的场景。
本文后续构建的AI正是基于这一类型，配合 MCPTools 使用。

2. Workflow Agents（如 SequentialAgent、ParallelAgent、LoopAgent）

用于在无需语言模型干预的情况下，按照特定逻辑顺序调用其他 Agent。
更适合执行稳定、结构化、可重复的工作流程。
可以理解为“流程控制器”，例如串行执行多个 Agent 的任务。

3. Custom Agents（基于 BaseAgent 自定义扩展）

用户可以通过继承和拓展 BaseAgent，自由实现定制逻辑、集成特定工具或构建个性化的任务执行方案。
适合高级开发者搭建复杂的智能系统。

这三种 Agent 设计模式形成了 ADK 强大的组合式智能能力：语言驱动 + 工具调用 + 任务编排。

🙋ADK 中的 Tools 是什么？

Agent 的强大不仅来自语言模型本身，更重要的是其可以借助外部能力，也就是“工具（Tools）”来扩展行动力。

简单来说，Tool 就是 Agent 拥有的一项“技能”。

✅ Tool 的定义

在 ADK 中，Tool 表示一个授予 AI Agent 的具体能力，允许其执行特定操作或与外部世界互动，而不仅仅是进行文字生成或语言推理。

一个 Tool 通常是一个模块化的代码组件，比如：

一个 Python 函数（Function）
一个类的方法（Method）
另一个 Agent（作为可调用工具）

它们的作用是：完成被定义好的任务，比如查询数据库、生成图像、调用 API、搜索网页、执行代码等。

🧠 Agent 如何调用 Tool？

Agent 会通过**函数调用机制（Function Calling）**动态使用工具。调用流程通常如下：

Agent 理解当前上下文和任务目标
判断是否需要调用工具，如果是，则生成对应函数的调用格式与参数
执行调用工具，并获取返回结果
将工具结果融入自身后续行为或回复中

这一过程对开发者是“可配置”的，对终端用户是“无感知”的。Agent 就像一个能够灵活组合工具的智能程序员。

🛠️ Tool 的种类

ADK 支持多种类型的工具，以满足不同的智能任务需求：

Function Tools：专门为某个应用或工作流构建的自定义函数组件

Functions / Methods：传统 Python 同步函数（def）或类方法
Agents-as-Tools：将其他 Agent 作为 Tool 使用，形成模块化的智能行为组合。
Long-Running Function Tools：设计用于处理异步或耗时较长的操作，比如等待网页响应、生成复杂图像、训练模型等。

Built-in Tools（内置工具）

网络搜索工具
代码执行器
文本向量搜索 / RAG 工具
ADK 自带的常用工具集，如：

Third-Party Tools（第三方工具）

通过集成外部生态如 LangChain、CrewAI 等，快速扩展工具系统

🤖ADK 中的 Agent ≠ 普通 Chatbot

特性	普通 Chatbot	ADK 中的 Agent
响应能力	基于 prompt 的简单问答	基于语义和工具组合的复杂任务响应
工具使用	靠插件或函数调用，通常写死	工具是可组合、可调度的，具备自动选择和调用能力
状态感知	很弱，多轮对话能力有限	内建记忆组件，能跨多轮对话保留上下文
任务能力	主要是聊天、摘要、回答	可以完成任务执行、数据处理、调用外部 API、执行链式逻辑等

🧩一个 Agent 实际上像什么？

可以类比为一个"智能操作系统进程"：

指令接收：用户发出自然语言请求（类似发送"指令"）
任务规划：内部使用 Planner 分解任务
工具调用：通过 Tool 连接各类系统 API
决策判断：LLM 分析上下文并决定后续动作
执行返回：Executor 完成任务并返回最终结果

🏗️在 ADK 中定义 Agent 的代码长什么样？

ADK 用 Agent 类封装了整个逻辑，你可以像这样定义一个 Agent：

agent = Agent(    llm=GeminiModel(),    tools=[FlightSearchTool(), WeatherTool()],    planner=SimplePlanner(),    memory=InMemoryStore())

调用也很自然：

response = agent.run("帮我查一下明天下午从上海飞往北京的航班")

ADK 会自动：

识别意图；
选择 FlightSearchTool；
格式化调用请求；
获取结果后整理回复；
返回最终答案。

✅ 总结一句话：

ADK 中的 Agent 是一个由语言模型驱动的、能够理解任务、自动调用工具并管理流程的智能执行单元。

接下来的两篇文章将继续介绍什么是MCP，以及从安装环境开始，实现一个自己的Agent大模型工具。

参考官方文档

https://google.github.io/adk-docs/agents/

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

学长亲荐9个AI论文工具，自考毕业论文轻松搞定！

2048 AI社区

MBA必备8个降AI率工具，高效避坑指南

2048 AI社区

企业级大模型创建与部署全流程（数据集—＞创建模型—＞训练模型—＞评估模型—＞部署模型）

前向传播是数据流动的过程，全连接层和激活函数是构建模型的基础，输出层和任务头决定任务类型，学习率和损失函数驱动训练，反向传播和优化器调整权重，而过拟合是需要避免的陷阱。②、模型架构（任务头+反向传播+）：在预训练模型的基础上，添加任务特定的输出层。①、使用测试集评估模型性能。大模型预训练后，针对不同的下游任务添加的“专用输出层”（后面接不同的任务头来做具体任务，预训练模型通常不包括任务特定的输出层