大模型Agent开发教程:收藏级指南助你快速上手,从工作流到自主智能体全面解析
本文介绍了大模型Agent开发的演变过程,包括通过提示词使大模型输出格式化内容融入程序,工作流的基本概念,MCP协议如何扩展模型能力,以及Dify、Coze等工作流平台。重点阐述了Agent的核心特点——自主性,包含Profile、Memory、Planning、Action四个组成部分,能够主动思考并调用工具解决问题,实现了类似人类的任务处理流程。
本文介绍了大模型Agent开发的演变过程,包括通过提示词使大模型输出格式化内容融入程序,工作流的基本概念,MCP协议如何扩展模型能力,以及Dify、Coze等工作流平台。重点阐述了Agent的核心特点——自主性,包含Profile、Memory、Planning、Action四个组成部分,能够主动思考并调用工具解决问题,实现了类似人类的任务处理流程。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
上一篇文章中提到我的目的是开发一个可以完成专业知识问答的智能助手。具体的手段是先搭建一个私有知识库,模型通过查询私有知识库来获取专业知识,进而完成问答任务。
在这篇文章中,我们会对大模型Agent开发所涉及到的相关概念进行简单的梳理,建立起对Agent的宏观印象。这个过程中也会穿插介绍一些开发工具。
一、如何让大模型成为代码的一部分?
一般来讲大模型的输出内容是变化的,对于同一个问题,你在不同的时间提问同一个模型,会得到不同的结果。一般的程序输入输出是相对确定的。
为了让大模型嵌入程序开发中,我们需要让大模型产生格式固定的输出。我们来观察一个真实的Agent开发中用到的提示词。这个提示词来源于GitHub的一个项目:https://github.com/Hammer1/cozeworkflows
这个模块用于根据书籍内容生成对话文案
# 角色你是一个擅长生成书籍对话口播字幕文案的助手,能够根据给定的书籍名称和作者,创作视频对话口播字幕文案。对话角色设定为主持人和拟人化的书籍,采用跨时代的形式展开对话。## 技能### 技能1: 生成对话文案1. 当用户提供《具体书籍名称》及作者等信息后,深度解读书籍内容。2. 将书籍拟人化,如“富爸爸老师,请问......”,“富爸爸老师,为什么......”,其中后续问题要紧密结合讲解书籍里的核心痛点,吸引观众兴趣。3. 生成至少1000字以上对话文案,提出至少10个以上问题,每个问题都要围绕这本书的痛点以及读者可能想了解或感兴趣的点展开。解答问题时,需结合现实生活中的实际情况或案例以及书籍知识点进行说明。4. 文案中不能仅有提问和回答情节,要加入对话情节。当说到重点或真相时,提问的人要说出惊讶的话,使整个视频看起来更像真实的对话或采访。5. 文案内容需包含每个问题对应的对话、解释、现如今是什么情况、之后该怎么做等部分。对于较长的台词,要用标点符号合理拆分为短句, 且每个短句不能超过10个字。6. 回复内容说明:role\_name=角色名称,固定2个,主持人和书籍名称, order=台词出场顺序,也是台词 唯一编号,line=角色台词,口播字幕文案7.如果用户输入了{{text}},请直接对文案进行台词编号* **回复示例** :{"role\_list": \[{"role\_name": "\[主持人\]"},{"role\_name": "\[书籍\]"}\],"text\_list":\[{"order": 1,"line": "\[台词\]","role\_name":"主持人"},{"order": 2,"line": "\[台词\]","role\_name":"书籍"},{"order": 3,"line": "\[台词\]","role\_name":"主持人"},{"order": 4,"line": "\[台词\]","role\_name":"书籍2"},{"order": 5,"line": "\[台词\]","role\_name":"主持人"},{"order": 6,"line": "\[台词\]","role\_name":"书籍"}\]}## 限制* 只围绕用户提供的书籍相关内容生成对话文案,拒绝回答与书籍无关的话题。* 文案需满足用户提出的格式和要求,不能偏离框架设定,尤其要注意将过长台词用标点符号拆分为短句。* 采用长短句形式进行提问和回答, 用逗号将长句进行分隔。
其实非常简单,我们通过提示词来限定大模型输出的格式。有了这种固定格式的输出,大模型就可以非常方便的集成到我们的程序中。
二、初探工作流(workflow)
如果我们把大模型+提示词打包为一个如图所示的节点。

并把数据传递用连接线来表示。这就是工作流最常见的形态

三、模型上下文协议(MCP)
上面我们提到的通过提示词限制模型的输出来完成模型代码的联动。这种方式可以解决一部分问题,但没有办法解决所有的问题。
比如现在你向AI Agent提问:“现在是几点?”,此时的大模型没有办法给出正确的答案,因为他无法获取系统时间。在传统的编程中通常使用API来获取系统时间。而模型想要获取系统时间,就需要使用模型专属的API——MCP协议。通过下图可以对MCP协议有一个简单的了解

考虑刚才提到的,向AI Agent提问:“现在是几点?”这个功能实现的调用流程
- 第一步:用户向AI Agent提问“现在几点了?”,此时程序会把用户问题和MCP Server信息一起发送给大模型
- 第二步:大模型拿到信息后开始推理,基于用户的问题和MCP Server的信息,选出解决用户问题最合适的MCP Server,然后返回给MCP Client程序。
- 第三步:MCP Client现在知道应该使用哪个MCP Server里的哪个工具了,直接调用该工具,获取结果。
- 第四步:Time MCP Server返回结果(当前的时间)给MCP Client。
- 第五步:MCP Client把用户的问题和从Time MCP Server处拿到的结果再一次给了大模型,目的是让大模型结合问题和答案再规整一下内容。
- 第六步:最后大模型把整合后的内容返回给用户。
可以看出MCP Server起到了一个中间层的作用,向上相应请求,向下发起调用。我们只需要为MCP Server写一套提示词,就可以使用所有的工具,大大降低了对提示词的依赖。
MCP协议是MCP Server基于JSON实现的。
四、工作流平台
集合了MCP服务之后,大模型获取了使用工具的能力,其能力就被大大加强了。
如果我们跟之前一样,把不同的MCP服务封装为节点。那工作流就可以做的非常复杂,功能非常丰富。

以工作流的形式进行Agent开发的平台非常多。Dify、Coze、n8n是使用者最多的三个平台
Dify
Dify是开源的,除了网页端之外,也可以使用Docker在本地构建。基础设施完善,但是高级功能收费。
之前在BOSS上遇到的大模型兼职也要求的是会Dify
Github上也有一些开源的工作流:https://github.com/svcvit/Awesome-Dify-Workflow
Coze
Coze原来是闭源的,今年给出了开源版本。与抖音生态的结合做的比较好,确实可以自动化做视频,不过调试成本较高。
Github上也有一些开源的工作流:https://github.com/Hammer1/cozeworkflows
n8n
不大了解。
五、Agent
工作流这种开发模型可以大大的降低开发门槛。非常方便的实现模块的拼接。但他并没有本质的突破。本身还是固定的、线性的。Agent相比于工作流的一大特点就是Agent具有自主性,他能够主动思考解决方案,并调用工具解决问题。
一个Agent包含以下部分:

Profile: 定义智能体的 “身份属性”,决定其角色定位。
Memory: 存储智能体感知到的信息,支撑后续决策。
Planning: 将复杂任务拆解为可执行的步骤。
Action: 将规划转化为具体行为,实现任务目标。
我们看一遍AutoGLM的工作流程就明白了,以“10w左右的电车有什么推荐的?”这个问题为例。
地址:https://autoglm.zhipuai.cn/s/349d7940-89a0-45db-b865-a15d9bb38160?isShare=true

模型首先对任务进行了分解,先搜集电车的详细信息,然后根据信息生成PPT, 注意,在提示词中并没有指定模型生成PPT。做PPT是模型自己思考的结果。
观察思考的过程:

我们可以看到模型在调用搜索引擎,不断的搜索、思考、再搜索再思考。循环往复,直到它收集到足够多的信息。

最后模型调用工具生成PPT。
对比工作流,我们可以发现,驱动Agent行动的主要因素不再是人工写好的程序,而是大模型本身的思考。
人类在处理事情时,通过思考,分解任务、挑选工具、逐个执行的整个流程。现在通过Agent实现了。
如果有充足的算力、强大的模型、丰富的工具,那么Agent总有一天是可以超越人类的。
小结
本文简要的介绍了从传统编程到Agent的开发的演变过程,穿插介绍了工作流、 MCP服务、 Agent等相关概念。在下一篇文章中,我们将介绍RAG技术,以及我们为什么要用RAG来开发智能问答助手。
读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。
针对0基础小白:
如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓


👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐



所有评论(0)