智能体协作网络:跨组织、跨平台的 Agent 如何联动?
在正式讨论智能体协作网络之前,我们需要先明确“智能体”的核心定义——这是整个ACN体系的“细胞”。根据人工智能领域的经典教材《人工智能:一种现代的方法(Artificial Intelligence: A Modern Approach)》第4版,智能体(Agent)是指能够通过传感器(Sensors)感知环境,通过执行器(Actuators)作用于环境,并以实现特定目标为导向的任何实体。
智能体协作网络:跨组织、跨平台的 Agent 如何联动?
一、引言
1.1 钩子:从科幻照进现实的“超算集群”不是由芯片组成的?
你是否想象过这样一个场景:你的创业公司正在筹备一款面向东南亚市场的跨境宠物用品直播电商平台——但你只有3个核心开发、1个运营实习生,连宠物营养师、东南亚多语言合规顾问、短视频素材翻译+AI剪辑师、新加坡本地供应链调度员的预算都没有?
或者,你是某跨国汽车集团的供应链负责人,某天凌晨3点突然收到了马来西亚雪兰莪州芯片封装厂的火灾预警邮件——你需要在15分钟内协调:
- 实时更新雪兰莪州政府的应急响应规则(合规Agent);
- 检查库存系统中可用的备用芯片规格(供应链库存Agent);
- 自动联系泰国、越南、菲律宾的3家备选封装厂,对比产能、交付周期、关税调整预期(备选供应商谈判Agent);
- 同步给欧洲总部的生产排期Agent,调整B级、C级车型的生产优先级,优先保障A级畅销车(生产协作Agent);
- 同时生成给董事会的中文、英文、德文、马来文简版报告,附上火灾现场卫星影像拼接图、初步损失评估、3天内的排期替代方案(多模态汇报Agent);
这一切,不需要你打10个跨国电话、不需要你翻300页的合规手册、不需要你坐在电脑前手动调整1000条生产排程——只需要你点击雪兰莪州预警邮件中的“启动供应链应急协作网络”按钮,10分钟内所有信息和决策就会推送到你的手机、邮箱和集团OA系统里。
这不是科幻电影《她》或《银翼杀手2049》里的未来桥段——这是2024年已经在微软Azure OpenAI Studio、字节跳动豆包大模型平台、华为盘古Agent Studio上小范围落地测试的**智能体协作网络(Agent Collaboration Network, ACN)**的真实应用场景。
更令人惊讶的是:这个“超级协作大脑”不是由数千块昂贵的GPU芯片组成的单一超算集群——它是由散布在不同公司、不同平台、不同技术栈上的成百上千个独立、轻量级的**智能体(Agent)**组成的“协作网络”。每个Agent可能只擅长一件事(比如:“翻译印尼语TikTok评论”、“识别中国海关宠物食品进口标签违规”、“计算泰国到新加坡的冷链运输最优路径”),但它们通过一套标准化的“协作协议”互相通信、分工协作、知识共享,最终完成单个Agent甚至人类团队都无法快速、高效、低成本完成的复杂任务。
1.2 定义问题/阐述背景:为什么我们需要跨组织、跨平台的 Agent 协作网络?
1.2.1 什么是智能体(Agent)?
在正式讨论智能体协作网络之前,我们需要先明确“智能体”的核心定义——这是整个ACN体系的“细胞”。
根据人工智能领域的经典教材《人工智能:一种现代的方法(Artificial Intelligence: A Modern Approach)》第4版,智能体(Agent)是指能够通过传感器(Sensors)感知环境,通过执行器(Actuators)作用于环境,并以实现特定目标为导向的任何实体。
这个定义非常宽泛——从你手机上的闹钟App(感知时间,执行“响铃”、“推送天气”的动作,目标是“提醒你起床”),到OpenAI的GPT-4o聊天机器人(感知文本、图像、音频输入,执行“生成文本”、“调用工具”的动作,目标是“满足用户的查询需求”),再到波士顿动力的Spot机器人(感知周围的地形、障碍物,执行“行走”、“搬运”、“开门”的动作,目标是“完成特定的工业或救援任务”),都可以被称为智能体。
但在本文中,我们讨论的智能体主要是指基于大语言模型(Large Language Model, LLM)或多模态大模型(Multimodal Large Language Model, MLLM)构建的、具备“自主决策能力”、“工具调用能力”、“上下文理解能力”的软件智能体——我们可以称之为“LLM/MLLM驱动的智能体”(以下简称“智能体”,除非特别说明)。
1.2.2 什么是跨组织、跨平台的智能体协作网络?
有了智能体的定义,我们可以进一步定义智能体协作网络(ACN):ACN是由多个独立的智能体组成的分布式系统,这些智能体通过标准化的通信协议、协作机制和知识共享框架互相连接,共同完成单个智能体无法独立完成的复杂、多步骤、多领域的任务。
而本文的核心——跨组织、跨平台的智能体协作网络——则是在普通ACN的基础上,增加了两个关键的约束条件:
- 跨组织(Cross-Organization):组成协作网络的智能体不属于同一个组织或公司——它们可能来自创业公司、跨国集团、政府机构、开源社区等不同的主体;
- 跨平台(Cross-Platform):组成协作网络的智能体部署在不同的技术平台或基础设施上——它们可能运行在微软Azure、亚马逊AWS、谷歌GCP等公有云平台上,可能部署在企业的私有云或本地服务器上,甚至可能运行在边缘设备(比如:智能摄像头、自动驾驶汽车)上;同时,它们可能使用不同的技术栈构建——比如:基于OpenAI的GPT-4o+LangChain构建,基于字节跳动的豆包大模型+Coze构建,基于华为的盘古Agent Studio构建,或者完全基于开源框架(比如:AutoGPT、BabyAGI、CrewAI、AutoGen)构建。
1.2.3 为什么我们需要跨组织、跨平台的智能体协作网络?
既然我们已经有了单个的智能体,甚至有了同一个组织、同一个平台内的智能体协作网络,为什么还要费力去构建跨组织、跨平台的呢?
这背后有三个不可逆转的技术和商业趋势,以及三个单个智能体和同组织同平台协作网络无法解决的核心痛点:
(1)不可逆转的技术和商业趋势
-
趋势一:大模型和智能体的“专业化分工”不可避免
正如人类社会的发展经历了从“自给自足的小农经济”到“专业化分工的工业社会”再到“全球化协作的数字经济”一样,大模型和智能体的发展也正在经历类似的过程:- 早期的通用大模型(比如:GPT-3、GPT-3.5)试图“什么都懂一点,但什么都不精通”;
- 后来,行业开始出现垂直领域的大模型(比如:针对医疗的Med-PaLM 2、针对法律的LawGPT、针对金融的BloombergGPT),以及基于垂直大模型构建的垂直领域智能体;
- 现在,行业的趋势正在进一步细分——出现了**“微专业智能体”**(Micro-Specialized Agent):比如,不是“所有医疗领域的智能体”,而是“专门分析中国肺癌患者CT影像报告的智能体”、“专门处理中国医保门诊报销申请的智能体”、“专门推荐适合糖尿病患者的低GI零食的智能体”。
这些微专业智能体的优势非常明显:它们在自己的垂直细分领域内的准确率、响应速度、成本都远优于通用大模型和垂直大模型。但它们的劣势也同样明显:它们只能完成自己细分领域内的单一或少数几个任务,无法完成复杂的、跨领域的任务。比如,“分析肺癌CT影像报告的智能体”无法帮患者“预约北京协和医院的肺癌专家号”,也无法帮患者“申请肺癌靶向药的慈善赠药”——这些任务需要“预约医院专家号的智能体”、“申请慈善赠药的智能体”、“中国医保政策解读的智能体”等多个微专业智能体的协作。
而这些微专业智能体,往往由不同的组织或公司开发:比如,“分析CT影像报告的智能体”可能由某医疗AI创业公司开发,“预约专家号的智能体”可能由某互联网医疗平台(比如:微医、好大夫在线)开发,“申请慈善赠药的智能体”可能由某慈善基金会(比如:中国癌症基金会)开发——要让这些智能体协作,就必须构建跨组织的智能体协作网络。
-
趋势二:大模型和智能体的“部署分散化”不可避免
随着数据安全、隐私保护、合规要求的日益严格(比如:欧盟的GDPR、中国的《个人信息保护法》《数据安全法》《网络安全法》),越来越多的组织或公司不愿意将自己的敏感数据(比如:用户的医疗记录、企业的财务数据、政府的机密文件)上传到公有云平台的通用大模型或第三方智能体上——它们更愿意将自己的垂直大模型或微专业智能体部署在私有云、本地服务器或边缘设备上,以确保数据的安全和隐私。同时,不同的组织或公司可能有不同的技术偏好和预算限制:比如,互联网大厂可能更愿意使用微软Azure、亚马逊AWS等公有云平台的大模型服务,创业公司可能更愿意使用开源框架(比如:AutoGen、CrewAI)+开源大模型(比如:Llama 3、Qwen 2)构建自己的智能体,政府机构可能更愿意使用华为盘古、百度文心一言等国产大模型平台构建自己的智能体——要让这些部署在不同平台、使用不同技术栈的智能体协作,就必须构建跨平台的智能体协作网络。
-
趋势三:“任务复杂化”和“响应实时化”的需求不可逆转
随着数字经济的发展,企业和用户面临的任务越来越复杂、越来越需要实时响应:比如,开头提到的跨境宠物用品直播电商平台的筹备任务,涉及到产品选品、合规审查、多语言翻译、AI剪辑、供应链调度、市场营销等多个领域的数十个步骤;而跨国汽车集团的供应链应急任务,涉及到合规、库存、谈判、生产、汇报等多个领域的数十个步骤,并且要求在15分钟内完成所有决策——这些任务,不仅单个智能体无法完成,甚至同组织同平台的协作网络也可能无法完成(比如:同组织内可能没有“东南亚多语言合规顾问”的智能体,也没有“泰国冷链运输最优路径计算”的智能体)——要完成这些任务,就必须整合全球范围内不同组织、不同平台的微专业智能体,构建跨组织、跨平台的智能体协作网络。
(2)单个智能体和同组织同平台协作网络无法解决的核心痛点
-
痛点一:“能力边界有限”——无法覆盖所有垂直细分领域
正如前面所说,单个智能体甚至同组织同平台的协作网络,都无法覆盖所有的垂直细分领域——因为开发一个高质量的微专业智能体,需要大量的垂直领域数据、专业知识和工程资源,任何一个组织或公司都不可能拥有所有垂直细分领域的数据、知识和资源。比如,某互联网医疗平台可能拥有“预约专家号”、“在线问诊”的智能体,但它不可能拥有“分析全球最新癌症靶向药临床试验数据”的智能体——因为这需要大量的全球临床试验数据,而这些数据往往由专业的医疗数据分析公司或学术机构掌握。 -
痛点二:“资源利用低效”——无法实现全球范围内的资源共享和优化配置
如果每个组织或公司都自己开发所有需要的微专业智能体,那么就会造成大量的资源浪费——比如,可能有100家不同的公司都在开发“中国海关宠物食品进口标签合规审查”的智能体,这100家公司都需要收集相同的中国海关宠物食品进口标签法规数据,都需要投入相同的工程资源进行开发和训练——这显然是非常低效的。而如果构建一个跨组织、跨平台的智能体协作网络,那么只需要1家或几家专业的公司开发“中国海关宠物食品进口标签合规审查”的智能体,然后将这个智能体“共享”到协作网络中,其他公司就可以直接“调用”这个智能体,而不需要自己开发——这不仅可以大大降低开发成本,还可以提高智能体的质量(因为专业的公司可以投入更多的资源进行优化和迭代)。
-
痛点三:“信任机制缺失”——跨组织跨平台的智能体之间无法建立信任关系
这是跨组织、跨平台的智能体协作网络面临的最大、最核心的痛点——如果两个智能体来自不同的组织或公司,部署在不同的平台上,它们之间怎么建立信任关系?比如:- 调用方怎么信任被调用方提供的智能体的质量?(比如:“中国海关宠物食品进口标签合规审查”的智能体会不会漏检违规标签?会不会给出错误的合规建议?)
- 被调用方怎么信任调用方不会滥用自己的智能体?(比如:调用方会不会调用自己的智能体进行恶意攻击?会不会窃取自己的智能体的知识产权?)
- 调用方和被调用方怎么信任协作过程中的数据安全和隐私保护?(比如:调用方发送给被调用方的宠物食品标签图片会不会被泄露给第三方?)
- 调用方和被调用方怎么信任协作过程中的任务执行结果和费用结算?(比如:被调用方会不会虚报智能体的调用次数?调用方会不会拖欠智能体的调用费用?)
如果没有一个有效的信任机制,跨组织、跨平台的智能体协作网络就不可能真正落地——这就像人类社会如果没有法律、合同、信用体系,就不可能有全球化的商业协作一样。
1.3 亮明观点/文章目标
面对这些不可逆转的趋势和核心痛点,本文的核心观点是:跨组织、跨平台的智能体协作网络是未来5-10年人工智能发展的最重要方向之一,而要构建一个真正可用的跨组织、跨平台的智能体协作网络,必须解决“标准化通信协议”、“分布式协作机制”、“知识共享框架”、“信任与安全机制”、“经济激励机制”这五大核心问题。
本文的目标是:带你从零开始,系统性地了解跨组织、跨平台的智能体协作网络的核心概念、技术架构、关键技术、实现方案、实际应用场景,以及未来的发展趋势;同时,本文还会通过一个实战案例(基于AutoGen和Hyperledger Fabric构建一个跨境宠物用品合规审查协作网络),带你亲手搭建一个简化版的跨组织、跨平台的智能体协作网络,让你对这个概念有更直观、更深刻的理解。
为了实现这个目标,本文的主要内容安排如下:
- 第二章:基础知识/背景铺垫——我们会先回顾智能体的核心概念、分类、设计模式,以及分布式系统、区块链技术、Web3技术的相关基础知识,为后续的核心内容打下基础;
- 第三章:跨组织跨平台智能体协作网络的核心架构与关键技术——这是本文的核心部分之一,我们会详细介绍ACN的五层核心架构(感知层、智能体层、协作层、信任与安全层、应用层),以及每一层的关键技术(比如:协作层的任务分解与分配、智能体协商与共识、知识共享与融合;信任与安全层的身份认证与授权、数据安全与隐私保护、智能体验证与审计、经济激励与结算);
- 第四章:实战演练——基于AutoGen和Hyperledger Fabric构建跨境宠物用品合规审查协作网络——这是本文的另一个核心部分,我们会通过一个完整的实战案例,带你搭建一个简化版的跨组织、跨平台的智能体协作网络,包括:环境安装、系统功能设计、系统架构设计、系统接口设计、系统核心实现源代码、测试与部署;
- 第五章:进阶探讨/最佳实践——我们会探讨ACN的常见陷阱与避坑指南、性能优化与成本考量、最佳实践总结;
- 第六章:行业发展与未来趋势——我们会回顾智能体协作网络的发展历史,探讨ACN的未来发展趋势,以及可能面临的挑战;
- 第七章:结论——我们会总结本文的核心要点,展望ACN的未来,并给读者留下一个行动号召。
二、基础知识/背景铺垫
在正式讨论跨组织、跨平台的智能体协作网络的核心架构与关键技术之前,我们需要先回顾一些必要的基础知识——这些知识就像盖房子的“砖块”和“水泥”,没有它们,我们就无法理解后续的核心内容。
2.1 智能体的核心概念、分类与设计模式
2.1.1 智能体的核心概念(回顾与扩展)
在第一章的引言中,我们已经给出了智能体的经典定义——这里我们再对这个定义进行一些扩展,以便更好地理解LLM/MLLM驱动的智能体:
根据《人工智能:一种现代的方法》第4版,智能体可以用一个五元组来表示:
Agent=⟨E,S,A,P,G⟩Agent = \langle E, S, A, P, G \rangleAgent=⟨E,S,A,P,G⟩
其中:
- EEE:环境(Environment)——智能体所处的外部世界,它可以是物理世界(比如:波士顿动力Spot机器人所处的工厂车间),也可以是数字世界(比如:GPT-4o聊天机器人所处的互联网);
- SSS:传感器(Sensors)——智能体用来感知环境的组件,它可以是物理传感器(比如:Spot机器人的摄像头、激光雷达、触觉传感器),也可以是数字传感器(比如:GPT-4o的文本输入接口、图像输入接口、音频输入接口);
- AAA:执行器(Actuators)——智能体用来作用于环境的组件,它可以是物理执行器(比如:Spot机器人的电机、机械臂),也可以是数字执行器(比如:GPT-4o的文本输出接口、图像生成接口、API调用接口);
- PPP:感知-行动循环(Perception-Action Loop)——智能体的核心逻辑,它将传感器感知到的环境状态映射为执行器的动作;对于LLM/MLLM驱动的智能体来说,感知-行动循环通常包括:环境感知→上下文理解→目标拆解→工具选择→动作执行→结果反馈→迭代优化这几个步骤;
- GGG:目标函数(Goal Function)——智能体用来评估自己的动作是否成功的函数,它可以是显式的(比如:“将跨境宠物食品的合规审查准确率提高到99.9%”),也可以是隐式的(比如:“让用户在ChatGPT中的满意度评分达到4.8分以上”)。
对于LLM/MLLM驱动的智能体来说,还有几个核心能力是必不可少的:
- 自主决策能力(Autonomous Decision-Making):智能体能够根据感知到的环境状态和自己的目标函数,自主选择下一步的动作,而不需要人类的实时干预;
- 工具调用能力(Tool Calling):智能体能够调用外部的工具(比如:API、数据库、搜索引擎、计算器、代码解释器)来完成自己无法独立完成的任务;
- 上下文理解能力(Context Understanding):智能体能够理解整个对话或任务的上下文,而不是只处理当前的输入;
- 多模态感知与生成能力(Multimodal Perception & Generation):对于MLLM驱动的智能体来说,还需要能够感知和生成文本、图像、音频、视频等多种模态的信息;
- 学习与迭代能力(Learning & Iteration):智能体能够根据任务执行的结果反馈,不断优化自己的感知-行动循环,提高自己的任务执行效率和准确率。
2.1.2 智能体的分类
根据不同的分类标准,智能体可以分为不同的类型——这里我们介绍几种最常用的分类方式:
(1)根据感知-行动循环的复杂程度分类
根据《人工智能:一种现代的方法》第4版,智能体可以分为以下五种类型,它们的复杂程度依次递增:
- 简单反射型智能体(Simple Reflex Agent):这类智能体的感知-行动循环最简单——它只根据当前的环境状态(而不考虑历史的环境状态),直接映射为动作;比如:你手机上的“自动亮度调节”App——它只根据当前的光线传感器数据,直接调整屏幕的亮度;
- 基于模型的反射型智能体(Model-Based Reflex Agent):这类智能体在简单反射型智能体的基础上,增加了一个内部模型(Internal Model)——它可以记录历史的环境状态和动作,从而更好地理解当前的环境状态;比如:你手机上的“导航App”——它可以记录你之前的行驶路线和速度,从而更好地预测你到达目的地的时间;
- 基于目标的智能体(Goal-Based Agent):这类智能体在基于模型的反射型智能体的基础上,增加了一个目标(Goal)——它会根据自己的目标,选择能够达到目标的动作;比如:你手机上的“打车App”——它会根据你的目的地(目标),选择最优的路线和最便宜的车型;
- 基于效用的智能体(Utility-Based Agent):这类智能体在基于目标的智能体的基础上,增加了一个效用函数(Utility Function)——它会根据自己的效用函数,选择能够最大化效用的动作(因为有时候可能有多个动作都能达到目标,但它们的效用不同);比如:你手机上的“外卖App”——它会根据你的口味偏好、价格偏好、配送时间偏好(这些都是效用函数的组成部分),选择最优的餐厅和菜品;
- 学习型智能体(Learning Agent):这类智能体在基于效用的智能体的基础上,增加了一个学习组件(Learning Component)——它可以根据任务执行的结果反馈,不断优化自己的内部模型、目标函数、效用函数,从而提高自己的任务执行效率和准确率;比如:你手机上的“音乐推荐App”——它会根据你的听歌历史和点赞/点踩记录,不断优化自己的推荐算法,给你推荐更符合你口味的歌曲。
对于LLM/MLLM驱动的智能体来说,它们通常属于基于效用的学习型智能体——因为它们不仅有明确的目标,还会根据用户的反馈(比如:满意度评分、点赞/点踩、纠正性提示)不断优化自己的表现。
(2)根据智能体的作用范围分类
根据智能体的作用范围,我们可以将LLM/MLLM驱动的智能体分为以下三种类型:
- 通用智能体(General-Purpose Agent):这类智能体的作用范围非常广泛——它们可以完成各种不同类型的任务,比如:聊天、写作、翻译、编程、数据分析等;典型的例子包括:OpenAI的GPT-4o、字节跳动的豆包4.0、谷歌的Gemini 1.5 Pro;
- 垂直领域智能体(Vertical Domain Agent):这类智能体的作用范围仅限于某个特定的垂直领域——它们在这个领域内的准确率、响应速度、成本都远优于通用智能体;典型的例子包括:针对医疗的Med-PaLM 2、针对法律的LawGPT、针对金融的BloombergGPT;
- 微专业智能体(Micro-Specialized Agent):这类智能体的作用范围仅限于某个垂直领域内的某个细分方向——它们在这个细分方向内的表现是最好的;典型的例子包括:“专门分析中国肺癌患者CT影像报告的智能体”、“专门处理中国医保门诊报销申请的智能体”、“专门推荐适合糖尿病患者的低GI零食的智能体”。
正如我们在第一章的引言中所说的,微专业智能体是跨组织、跨平台的智能体协作网络的核心组成部分——因为只有整合这些微专业智能体,才能完成复杂的、跨领域的任务。
(3)根据智能体的部署位置分类
根据智能体的部署位置,我们可以将LLM/MLLM驱动的智能体分为以下四种类型:
- 公有云智能体(Public Cloud Agent):这类智能体部署在公有云平台(比如:微软Azure、亚马逊AWS、谷歌GCP)上,任何人都可以通过API调用;典型的例子包括:OpenAI的GPT-4o API、字节跳动的豆包大模型API、谷歌的Gemini API;
- 私有云智能体(Private Cloud Agent):这类智能体部署在组织或公司的私有云平台上,只有组织或公司内部的人员或系统可以调用;典型的例子包括:某跨国汽车集团部署在自己私有云上的“供应链库存Agent”;
- 本地智能体(On-Premises Agent):这类智能体部署在组织或公司的本地服务器上,只有组织或公司内部的人员或系统可以调用;典型的例子包括:某银行部署在自己本地服务器上的“反欺诈Agent”;
- 边缘智能体(Edge Agent):这类智能体部署在边缘设备(比如:智能摄像头、自动驾驶汽车、智能手机)上,它们可以在本地处理数据,不需要将数据上传到云端;典型的例子包括:某智能摄像头部署在本地的“人脸检测Agent”。
跨组织、跨平台的智能体协作网络需要整合这四种类型的智能体——这就给我们的技术架构和关键技术提出了很高的要求。
(4)根据智能体的协作方式分类
根据智能体的协作方式,我们可以将智能体分为以下两种类型:
- 独立智能体(Independent Agent):这类智能体不需要与其他智能体协作,就可以独立完成自己的任务;典型的例子包括:你手机上的“闹钟App”、“计算器App”;
- 协作智能体(Collaborative Agent):这类智能体需要与其他智能体协作,才能完成自己的任务;典型的例子包括:CrewAI中的“产品经理Agent”、“开发工程师Agent”、“测试工程师Agent”——它们需要协作才能完成一个软件项目的开发。
显然,协作智能体是跨组织、跨平台的智能体协作网络的核心组成部分。
2.1.3 智能体的设计模式
目前,业界已经有很多成熟的LLM/MLLM驱动的智能体设计模式——这里我们介绍几种最常用的:
(1)ReAct模式
ReAct模式是由Google Research在2022年提出的一种智能体设计模式——它的全称是Reasoning + Acting(推理+行动)。ReAct模式的核心思想是:让智能体在执行动作之前,先进行推理(思考为什么要执行这个动作),然后再执行动作,最后根据动作的结果进行反馈和迭代。
ReAct模式的感知-行动循环通常包括以下几个步骤:
- Thought(思考):智能体根据当前的环境状态和上下文,思考下一步应该做什么;
- Action(行动):智能体选择并执行一个动作(比如:调用一个工具、生成一段文本);
- Observation(观察):智能体观察动作执行的结果;
- Repeat(重复):智能体重复以上步骤,直到达到自己的目标。
ReAct模式的优点是:它可以让智能体的决策过程更加透明、可解释——因为我们可以看到智能体的“思考过程”(Thought);同时,它也可以提高智能体的任务执行准确率——因为智能体可以根据动作的结果进行反馈和迭代。
ReAct模式的典型实现包括:OpenAI的Function Calling、LangChain的ReAct Agent、AutoGPT(部分基于ReAct模式)。
(2)CoT(Chain-of-Thought,思维链)模式
CoT模式是由Google Research在2022年提出的另一种智能体设计模式——它的核心思想是:让智能体在解决复杂问题时,先将问题分解成多个简单的子问题,然后逐步解决这些子问题,最后得出最终的答案。
CoT模式的感知-行动循环通常包括以下几个步骤:
- 问题理解:智能体理解用户提出的复杂问题;
- 问题分解:智能体将复杂问题分解成多个简单的子问题;
- 子问题解决:智能体逐步解决这些子问题;
- 答案整合:智能体将各个子问题的答案整合起来,得出最终的答案。
CoT模式的优点是:它可以大大提高智能体解决复杂、多步骤问题的准确率——尤其是在数学推理、逻辑推理、代码生成等领域。
CoT模式的典型实现包括:OpenAI的GPT-4、GPT-4o(支持Zero-Shot CoT和Few-Shot CoT)、LangChain的CoT Agent。
(3)Crew模式
Crew模式是由CrewAI(一个开源的智能体协作框架)在2023年提出的一种智能体设计模式——它的核心思想是:将多个智能体组成一个“团队(Crew)”,每个智能体有明确的“角色(Role)”、“目标(Goal)”、“工具(Tools)”、“背景知识(Backstory)”,它们通过“任务(Task)”和“流程(Process)”进行协作,共同完成一个复杂的任务。
Crew模式的核心组成部分包括:
- Agent(智能体):团队中的每个成员,有明确的角色、目标、工具、背景知识;
- Task(任务):分配给智能体的具体工作;
- Process(流程):团队协作的方式——目前CrewAI支持两种流程:Sequential Process(顺序流程,智能体按顺序执行任务)和Hierarchical Process(层级流程,有一个“项目经理Agent”负责分配任务和协调协作);
- Crew(团队):由多个Agent、多个Task、一个Process组成的整体。
Crew模式的优点是:它可以模拟人类团队的协作方式,非常适合解决复杂的、跨领域的、需要多个角色协作的任务——比如:软件项目开发、市场营销策划、内容创作等。
Crew模式的典型实现就是CrewAI本身——这是一个非常流行的开源智能体协作框架,目前在GitHub上已经有超过20k的Star。
(4)AutoGen模式
AutoGen模式是由Microsoft Research在2023年提出的一种智能体设计模式——它的核心思想是:将多个智能体组成一个“多智能体系统(Multi-Agent System, MAS)”,智能体之间通过“对话(Conversation)”进行协作,它们可以是“人类代理(Human Agent)”、“助理代理(Assistant Agent)”、“工具代理(Tool Agent)”、“用户代理(User Proxy Agent)”等不同的角色。
AutoGen模式的核心组成部分包括:
- Agent(智能体):多智能体系统中的每个成员,有明确的角色和行为规则;
- Conversation(对话):智能体之间的通信方式——它们可以通过文本、图像、音频等多种模态进行对话;
- Group Chat(群聊):多个智能体之间的群组对话——AutoGen支持多种群聊模式,比如:Round Robin(轮询)、Random(随机)、Custom(自定义);
- User Proxy(用户代理):代表人类用户与其他智能体进行对话的代理——它可以自动执行工具调用、代码解释等操作,也可以在需要的时候向人类用户寻求反馈。
AutoGen模式的优点是:它非常灵活,可以支持各种不同类型的智能体和协作方式——同时,它也支持人类用户的参与,可以实现“人机协作”;此外,AutoGen还提供了强大的工具调用、代码解释、多模态对话等功能。
AutoGen模式的典型实现就是AutoGen本身——这是一个非常强大的开源多智能体框架,目前在GitHub上已经有超过25k的Star,也是我们第四章实战案例中使用的主要框架之一。
2.2 分布式系统的相关基础知识
跨组织、跨平台的智能体协作网络本质上是一个分布式系统(Distributed System)——因为它由多个独立的智能体组成,这些智能体部署在不同的节点(服务器、边缘设备)上,通过网络进行通信和协作。因此,我们需要了解一些分布式系统的相关基础知识。
2.2.1 什么是分布式系统?
根据分布式系统领域的经典教材《分布式系统:概念与设计(Distributed Systems: Concepts and Design)》第5版,分布式系统是指多个独立的计算机节点通过网络连接在一起,它们看起来像一个单一的系统,为用户提供统一的服务。
分布式系统的核心特征包括:
- 分布性(Distribution):系统的组件(节点)分布在不同的地理位置或物理设备上;
- 自治性(Autonomy):每个节点都有自己的处理器、内存、存储等资源,能够独立地做出决策;
- 并发性(Concurrency):多个节点可以同时执行任务;
- 缺乏全局时钟(Lack of Global Clock):不同的节点有不同的本地时钟,很难实现完全同步的全局时钟;
- 故障独立性(Failure Independence):一个节点的故障不会影响整个系统的运行(当然,这需要系统具备容错能力)。
2.2.2 分布式系统的关键挑战
分布式系统面临着很多关键挑战——这些挑战也是跨组织、跨平台的智能体协作网络需要解决的:
- 通信延迟(Communication Latency):不同的节点通过网络进行通信,会有一定的延迟——这会影响系统的响应速度;
- 网络分区(Network Partition):由于网络故障,系统的某些节点可能无法与其他节点进行通信——这会导致系统被分成多个独立的分区;
- 节点故障(Node Failure):系统的某些节点可能会出现故障(比如:服务器宕机、边缘设备断电)——这会影响系统的可用性;
- 一致性(Consistency):不同的节点可能存储了相同的数据副本,如何确保这些数据副本的一致性是一个非常困难的问题;
- 可用性(Availability):如何确保系统在面对网络分区、节点故障等问题时,仍然能够为用户提供服务;
- 分区容错性(Partition Tolerance):如何确保系统在面对网络分区时,仍然能够正常运行;
- 安全性(Security):如何确保系统的通信安全、数据安全、身份认证与授权等;
- 可扩展性(Scalability):如何确保系统在节点数量增加时,仍然能够保持良好的性能。
这里需要特别提到的是CAP定理(CAP Theorem)——这是分布式系统领域的一个经典定理,由Eric Brewer在2000年提出,后来由Seth Gilbert和Nancy Lynch在2002年证明。CAP定理指出:在一个分布式系统中,不可能同时满足一致性(Consistency)、可用性(Availability)、分区容错性(Partition Tolerance)这三个特性——最多只能同时满足其中的两个。
CAP定理中的三个特性定义如下:
- 一致性(Consistency):所有节点在同一时间看到的数据是相同的(强一致性);
- 可用性(Availability):每个请求都能收到一个非错误的响应(但不一定是最新的数据);
- 分区容错性(Partition Tolerance):系统在面对任意数量的网络分区(消息丢失或延迟)时,仍然能够正常运行。
由于网络分区是不可避免的(因为网络故障总是会发生的),所以在实际的分布式系统中,我们通常需要在一致性和可用性之间做出权衡:
- CP系统(Consistency + Partition Tolerance):优先保证一致性和分区容错性,牺牲可用性——比如:银行的转账系统、分布式数据库HBase;
- AP系统(Availability + Partition Tolerance):优先保证可用性和分区容错性,牺牲一致性(最终一致性)——比如:社交媒体平台、分布式数据库Cassandra、DNS系统。
对于跨组织、跨平台的智能体协作网络来说,我们通常需要根据具体的应用场景来选择CP系统或AP系统——比如:对于涉及到金钱交易的应用场景(比如:智能体的调用费用结算),我们需要选择CP系统;对于涉及到内容推荐的应用场景(比如:宠物食品推荐),我们可以选择AP系统。
2.2.3 分布式系统的一致性模型
除了CAP定理之外,我们还需要了解一些分布式系统的一致性模型(Consistency Model)——一致性模型定义了分布式系统中数据副本的一致性程度,以及用户可以期望看到的数据状态。
常见的一致性模型包括:
- 强一致性(Strong Consistency):所有节点在同一时间看到的数据是相同的——一旦某个数据更新成功,所有后续的请求都能看到这个更新;
- 顺序一致性(Sequential Consistency):所有节点看到的所有操作的顺序是相同的——但不一定是实时的;
- 因果一致性(Causal Consistency):只有具有因果关系的操作的顺序是一致的——没有因果关系的操作的顺序可以是任意的;
- 最终一致性(Eventual Consistency):如果没有新的更新操作,那么经过一段时间之后,所有节点的数据副本都会一致——这是一种弱一致性模型;
- 单调读一致性(Monotonic Read Consistency):如果一个用户读取了某个数据的某个版本,那么后续的读取操作都不会看到比这个版本更早的版本;
- 单调写一致性(Monotonic Write Consistency):如果一个用户执行了某个写操作,那么后续的写操作都会在这个写操作之后执行。
对于跨组织、跨平台的智能体协作网络来说,我们通常需要根据具体的应用场景来选择合适的一致性模型——比如:对于涉及到任务分配的应用场景(比如:将合规审查任务分配给某个智能体),我们需要选择强一致性或顺序一致性;对于涉及到知识共享的应用场景(比如:共享宠物食品合规审查的最新规则),我们可以选择最终一致性。
2.3 区块链技术与Web3技术的相关基础知识
正如我们在第一章的引言中所说的,信任机制缺失是跨组织、跨平台的智能体协作网络面临的最大、最核心的痛点——而区块链技术和Web3技术正是解决这个痛点的关键技术之一。因此,我们需要了解一些区块链技术和Web3技术的相关基础知识。
2.3.1 什么是区块链技术?
根据区块链领域的经典教材《区块链:技术驱动金融(Blockchain: Blueprint for a New Economy)》,区块链(Blockchain)是指一种去中心化的、分布式的、不可篡改的、可追溯的账本技术——它通过密码学算法、共识机制、点对点网络等技术,确保账本上的数据的安全性、完整性、一致性和可信度。
区块链的核心特征包括:
- 去中心化(Decentralization):没有一个单一的中心化机构来控制整个系统——系统的控制权分散在多个节点(参与者)手中;
- 分布式账本(Distributed Ledger):每个节点都保存了一份完整的账本副本——这确保了账本的安全性和可用性;
- 不可篡改(Immutability):一旦数据被写入区块链,就很难被篡改——因为要篡改数据,需要同时控制系统中超过51%的节点(这就是所谓的“51%攻击”);
- 可追溯(Traceability):账本上的每一笔交易都有明确的时间戳和交易记录——可以追溯到每一笔交易的源头和去向;
- 透明性(Transparency):所有节点都可以看到账本上的所有交易记录(当然,私有链和联盟链可以对交易记录进行权限控制);
- 匿名性(Anonymity):用户可以使用公钥和私钥来进行交易——不需要暴露自己的真实身份(当然,这取决于区块链的类型和应用场景)。
2.3.2 区块链的类型
根据区块链的访问权限和控制权,我们可以将区块链分为以下三种类型:
- 公有链(Public Blockchain):任何人都可以加入区块链网络,任何人都可以读取账本上的交易记录,任何人都可以参与共识机制——典型的例子包括:比特币、以太坊;
- 联盟链(Consortium Blockchain):只有经过授权的组织或公司才能加入区块链网络,只有经过授权的节点才能读取账本上的交易记录和参与共识机制——典型的例子包括:Hyperledger Fabric、R3 Corda、蚂蚁链的联盟链;
- 私有链(Private Blockchain):只有一个单一的组织或公司才能控制区块链网络,只有经过授权的节点才能读取账本上的交易记录和参与共识机制——典型的例子包括:某银行的内部区块链系统。
对于跨组织、跨平台的智能体协作网络来说,联盟链是最合适的选择——因为它既可以保证系统的去中心化和安全性,又可以对访问权限和控制权进行管理,同时还可以提高系统的性能和效率(因为共识机制只需要在经过授权的节点之间进行)。我们第四章的实战案例中使用的Hyperledger Fabric就是一个非常流行的联盟链框架。
2.3.3 区块链的核心技术组件
区块链的核心技术组件包括:
- 密码学算法(Cryptographic Algorithms):区块链使用了多种密码学算法来确保数据的安全性、完整性和可信度——比如:哈希算法(Hash Function,比如:SHA-256)、非对称加密算法(Asymmetric Encryption,比如:RSA、ECC)、数字签名算法(Digital Signature,比如:ECDSA);
- 共识机制(Consensus Mechanism):共识机制是区块链的核心——它用来确保所有节点的账本副本的一致性;常见的共识机制包括:工作量证明(Proof of Work, PoW,比特币使用的共识机制)、权益证明(Proof of Stake, PoS,以太坊2.0使用的共识机制)、委托权益证明(Delegated Proof of Stake, DPoS,EOS使用的共识机制)、实用拜占庭容错(Practical Byzantine Fault Tolerance, PBFT,Hyperledger Fabric可以使用的共识机制)、权威证明(Proof of Authority, PoA);
- 点对点网络(Peer-to-Peer Network, P2P Network):区块链的节点通过点对点网络进行通信——没有一个单一的中心化服务器;
- 智能合约(Smart Contract):智能合约是一种运行在区块链上的、自动执行的计算机程序——它定义了交易的规则和条件,一旦满足这些条件,就会自动执行交易;智能合约是区块链技术最重要的应用之一——它可以用来实现跨组织、跨平台的智能体协作网络中的信任机制、经济激励机制、费用结算机制等;
- 账本(Ledger):账本是区块链的核心数据结构——它用来存储所有的交易记录;Hyperledger Fabric使用了一种叫做“世界状态(World State)”和“区块链(Blockchain)”的双层账本结构——世界状态用来存储当前的数据状态,区块链用来存储所有的历史交易记录。
2.3.4 什么是Web3技术?
Web3技术是一个比较宽泛的概念——它通常指的是基于区块链技术、去中心化应用(Decentralized Application, DApp)、去中心化自治组织(Decentralized Autonomous Organization, DAO)、非同质化代币(Non-Fungible Token, NFT)、去中心化金融(Decentralized Finance, DeFi)等技术构建的下一代互联网。
Web3技术的核心特征包括:
- 去中心化(Decentralization):没有一个单一的中心化机构来控制整个互联网——互联网的控制权分散在多个节点(参与者)手中;
- 用户主权(User Sovereignty):用户拥有自己的数据的所有权和控制权——不需要将自己的数据交给中心化的互联网平台(比如:Facebook、Google、阿里巴巴);
- 可编程性(Programmability):通过智能合约,用户可以在互联网上编写和执行自动执行的计算机程序;
- 互操作性(Interoperability):不同的区块链网络和去中心化应用之间可以互相通信和协作;
- 经济激励(Economic Incentive):通过加密货币和代币,用户可以获得经济激励——比如:参与区块链网络的共识机制可以获得加密货币奖励,使用去中心化应用可以获得代币奖励。
Web3技术与跨组织、跨平台的智能体协作网络的结合,可以很好地解决信任机制缺失、经济激励机制缺失等核心痛点——这也是未来5-10年人工智能和Web3技术发展的最重要方向之一。
2.4 本章小结
在本章中,我们回顾
更多推荐

所有评论(0)