谷歌与Kaggle联手,用为期5天的强化课程和5份重磅报告,为全球开发者系统性地描绘了构建AI智能体的完整蓝图。

课程地址:https://www.kaggle.com/learn-guide/5-day-agents

YouTube直播回放:https://www.youtube.com/playlist?list=PLqFaTIg4myu9r7uRoNfbJhHUbLp-1t1YE

该AI智能体强化课程,旨在帮助开发者掌握人工智能的下一个前沿领域,AI智能体。

这并非他们首次合作,今年早些时候的生成式AI强化课程第二版,在短短20天内就吸引了超过28万名学习者报名,并创下了单周虚拟AI会议最大参与人数的吉尼斯世界纪录。

此次,他们将焦点对准了更具挑战性的领域。

课程由谷歌的AI研究人员和工程师亲自打造,内容覆盖了从简单AI智能体的构建到复杂多智能体系统的设计。

它系统地剖析了智能体的核心架构,工具使用,记忆机制和质量评估,带领开发者走完从原型验证到生产部署的全过程。

整个课程设计极为灵活且注重互动。

每天,Kaggle的课程页面都会发布新的学习材料,包括深度报告,动手实践的Codelab,以及由NotebookLM制作的播客摘要。

学习者可以在自己的节奏下学习,同时通过Discord社区与来自全球的同行,谷歌的工程师和研究人员进行实时讨论和提问。

此外,Kaggle的YouTube频道每天都会进行直播,邀请来自谷歌,英伟达,Cohere等公司的专家进行分享。

完成所有课程材料后,学员将通过一个顶点项目来应用所学知识,构建属于自己的AI智能体。

智能体是具备行动力的完整应用

第一天的核心是建立认知,理解什么是AI智能体。

智能体远不止是一个大语言模型。

传统的人工智能范式专注于被动和离散的任务,比如回答问题,翻译文本或生成图像,每一步都需要人类的明确指令。

我们正在经历一场范式转移,从仅仅预测或生成内容的AI,转向能够自主解决问题和执行任务的新型软件。

AI智能体正是这一新前沿的产物。

它是一个完整的应用程序,能够为了实现特定目标而制定计划并采取行动。

它将语言模型的推理能力与实际行动的能力相结合,使其能够处理模型本身无法独立完成的复杂,多步骤任务。

其最关键的能力在于自主工作,它能自行判断实现目标所需的后续步骤,而无需人类在每一步都进行引导。

报告《智能体简介》(Introduction to Agents)为我们描绘了这一图景。文中提出了智能体能力的分类法,并强调了建立智能体运维(Agent Ops)学科的必要性,以确保其可靠性和有效治理。

随着智能体变得越来越普遍,互操作性成为一个关键问题。

智能体需要一个标准化的方式来相互发现,通信和协作。

同时,安全问题也不容忽视。

一个能够自主行动的系统必须有明确的身份标识和受约束的策略,以防止滥用和意外行为。

当天的Codelab动手环节,学员将使用由Gemini驱动的代理开发套件(ADK),构建第一个AI智能体。

这个智能体被赋予了使用谷歌搜索的能力,从而能用最新的信息来回答问题。

第二个Codelab则聚焦于多智能体系统,学员将学习如何创建由多个专业智能体组成的团队,并探索不同的协作架构模式。

智能体通过工具与真实世界交互

第二天的主题转向了智能体如何突破其知识边界,与外部世界互动。

大语言模型的知识被限制在其训练数据的时间戳之内。

它们无法获知今天发生了什么,也无法访问私有数据库或执行特定的软件操作。

工具(Tools)和函数(Functions)正是解决这一问题的关键。

它们是智能体可以调用的外部接口,使其能够执行超越自身内置能力的操作或检索实时数据。

报告《智能体工具与MCP的互操作性》(Agent Tools & Interoperability with MCP)深入探讨了这一领域,阐述了工具的本质,并为设计高效工具提供了最佳实践和指导方针。

设计一个好的工具需要清晰的描述,让智能体能够准确理解其功能和参数。

它还需要稳健的错误处理机制,以便在外部系统出现问题时,智能体能够优雅地处理失败并进行重试或寻找替代方案。

接着,报告引入了一个至关重要的概念,模型上下文协议(MCP,Model Context Protocol)。

MCP旨在为模型,工具和应用程序之间提供一个标准化的通信层。

它定义了组件架构和通信方式,为构建可互操作的智能体生态系统奠定了基础。

但MCP的引入也带来了新的挑战和风险,尤其是在企业环境中。

当智能体通过MCP连接到高价值的外部系统时,安全问题变得尤为突出。

必须仔细考虑身份验证,授权,数据隐私和防止恶意使用的机制。企业需要填补这些准备就绪的差距,才能安全地部署功能强大的智能体。

在实践中,学员将学习如何为自己的智能体创建自定义工具,将普通的Python函数转化为智能体可以执行的动作。

他们还将使用MCP,并实现一种长时间运行操作的模式。

在这种模式下,智能体可以在等待人类批准后,暂停工具调用,并在获得许可后继续执行。

这对于需要人工监督的关键任务至关重要。

智能体依靠上下文工程获得记忆

第三天的焦点是让智能体拥有记忆,从一个无状态的应答机器,转变为能够进行连贯对话,并记住长期信息的智慧伙伴。

实现这一点的核心技术被称为上下文工程(Context Engineering)。

它指的是动态地组合和管理智能体上下文窗口内的信息,以创建有状态和个性化的AI体验。

上下文窗口是大语言模型进行推理时能够看到的所有信息,是其短暂意识的全部载体。

报告《上下文工程:会话与记忆》(Context Engineering: Sessions & Memory)系统地阐述了这一主题。

文章将上下文管理分为两个层面。

会话(Sessions)是承载单次、即时对话历史的容器。它管理着智能体在一次连续互动中的短期工作记忆。

通过有效地管理会话历史,智能体可以理解多轮对话中的指代关系和隐含信息,从而进行有逻辑,有条理的交流。

记忆(Memory)则是长期持久化的机制。它允许智能体将关键信息跨越不同的会话进行存储和检索。

这使得智能体能够记住用户的偏好,过往的互动细节,以及在多次对话中积累的知识,从而提供真正个性化的服务。

在Codelab中,学员将首先学习如何通过在ADK(代理开发套件)中进行上下文工程来管理会话历史,从而构建有状态的智能体。

他们将看到一个能够进行连贯,多轮对话的智能体是如何工作的。

在第二个Codenab中,他们将更进一步,为智能体赋予能够跨会话持久存在的长期记忆。

这就像为智能体建立了一个知识库,使其能够不断学习和成长。

智能体通过可观测性保证质量

第四天,课程进入了确保智能体质量的硬核领域。

从可预测的,基于指令的传统软件,到自主的,面向目标的AI智能体,这是软件工程几十年来最深刻的转变之一。

这种转变也彻底打破了我们传统的质量保证模型。

智能体固有的不确定性使其行为难以预测,传统的测试方法在这里显得力不从心。

报告《智能体质量》(Agent Quality)为此提供了一份实用指南,提出了一个激进而又根本的原则:智能体质量是一个架构支柱,而不是最后的测试阶段。

这意味着质量保证必须从设计之初就融入智能体开发的每一个环节。

实现这一点的技术基础是可观测性(Observability)。

可观测性建立在三个支柱之上。

日志(Logs)是智能体的日记。

它记录了智能体运行过程中发生的每一个离散事件,比如调用了哪个工具,收到了什么响应。

追踪(Traces)是智能体的叙事。

它将一系列相关的日志串联起来,形成一个完整的,端到端的故事。通过追踪,我们可以清晰地看到智能体为了完成一个目标,从最初的提示到最终的响应,都经历了怎样的思考链和行动序列。

指标(Metrics)是智能体的健康报告。

它提供了关于智能体性能和行为的量化数据,比如响应延迟,工具调用成功率,成本消耗等。

这三大支柱共同构成了一个持续的反馈循环。

当智能体出现问题时,我们可以通过追踪来理解其决策过程,通过日志来定位具体的失败点,并通过指标来衡量问题的影响范围。

在此基础上,我们可以采用更先进的评估方法。

例如,使用LLM即评委(LLM-as-a-Judge)的可扩展方法,让另一个强大的语言模型来评估智能体的响应质量和工具使用情况。

同时,结合人在回路(HITL,Human-in-the-Loop)的评估,让真人专家对智能体在复杂或模糊场景下的表现进行打分,以获得更细致的反馈。

当天的Codelab将指导学员如何利用日志,追踪和指标,来获得对智能体决策过程的完全可见性,从而能够调试故障,并理解智能体行为背后的原因。

在第二个Codelab中,学员将学习如何实施评估框架,来为智能体的响应质量和工具使用情况打分。

智能体通过工程化走向生产

第五天,也是课程的最后一天,主题是如何将智能体从本地的原型,转变为可部署,可扩展,可信赖的生产级服务。

报告《从原型到生产》(Prototype to Production)为AI智能体的整个运营生命周期提供了全面的技术指南。

在前一天评估和可观测性的基础上,进一步探讨了如何通过稳健的持续集成/持续部署(CI/CD)流水线和可扩展的基础设施,来建立将智能体推向生产所需的信任。

文章深入探讨了将基于智能体的系统从原型过渡到企业级解决方案所面临的挑战。

这不仅是技术挑战,也包括成本,安全和治理等多方面的考量。

报告中特别关注了代理到代理(A2A,Agent2Agent)的互操作性协议。

如果说MCP(模型上下文协议)解决了智能体与工具之间的通信问题,那么A2A协议则专注于解决多个独立智能体之间如何进行通信和协作。

这为构建由多个专业智能体组成的复杂系统,共同解决一个宏大问题提供了可能。

在Codelab实践中,学员将学习如何使用A2A(代理到代理)协议来构建一个由多个独立智能体组成的系统,这些智能体可以相互通信和协作。

最后,在一个可选的环节中,学员将学习如何将自己构建的智能体部署到谷歌云(Google Cloud)上的Vertex AI智能体引擎(Agent Engine),将其从本地机器上的一个程序,转变为一个可扩展的,生产就绪的服务。

这五天的旅程,从一个基础的概念开始,层层递进,最终触及了将AI智能体投入真实世界应用的核心工程问题。

它让开发者充分了解前沿知识,更培养了构建未来智能的思维方式。

报告免费下载:

《Introduction to Agents》:https://c.sumw.com.cn/marketingResearchDetails?id=1989265443698806786

《Agent Tools & Interoperability with MCP》:https://c.sumw.com.cn/marketingResearchDetails?id=1989270084448718850

《Context Engineering: Sessions, Memory》:https://c.sumw.com.cn/marketingResearchDetails?id=1989263339366158338

《Agent Quality》:https://c.sumw.com.cn/marketingResearchDetails?id=1989268830104358914

《Prototype to Production》:https://c.sumw.com.cn/marketingResearchDetails?id=1989267883324116993

参考资料:

https://blog.google/technology/developers/google-kaggle-genai-intensive-recap-2025/

END

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐