Agent Infra到底是什么?【AI基建】
后续的步骤可以从这个暂存的工作记忆里调取信息,放入上下文,帮助大脑决策。同时,有的Agent我们还希望它能实现个性化,让Agent可以认识我们,让他记住你的个人信息,比如这位用户对花生过敏,他喜欢的球队是某某队。它有聪明的大脑——模型层,灵活的神经中枢——调度层,靠谱的记忆——记忆层,能干的手脚和强大的工具箱——工具层,健康的免疫系统和行为准则——运维治理层,以及跟同伴协作融入集体的方式——社会层
是时候重新认识Agent了,AI agent pushing the future forward ever。N2.5亿美元,重价59亿美元,估值18亿美元,一个泡泡起早要爆的。
没有啊,朋友们,今天我们来用20分钟重新认识 Agent 的背后。看完这一条,你就能在每次有那些炸裂的Agent出现的时候,看穿他们背后的那些事儿。话不多说,点好收藏关注赞,我们开始吧。
其实Agent的定义我之前有做过一些视频。最简单抽象的定义就一句话:能够代理人类并且自主行动完成目标的AI系统。再展开一点,就是一种具备感知能力、有记忆、能自主决策,并且采取行动以实现特定目标的AI系统。但如果要真正落地帮我们完成复杂任务,这个简单的Agent定义就需要…
发展成一个像人类或者人类社会一样复杂的智能系统。
我总结了一个比较便于理解的六层AI框架:模型层、调度层、记忆层、工具层、运维和治理层、社会层。好,别走,别怕,光听这些名字肯定是一头雾水。草吕虫师傅在此。那俗话说的好,要想富先修路,Agent也是一样。要想Agent跑得好,基建你可少不了。刚刚我说的这些其实都属于Agent的基建Agent Infra。
我们一个个来讲。第一个最核心的模型层,这个比较好理解,就是agent的大脑——大语言模型。它负责最关键的思考、推理和决策。像我们熟悉的GPT-5、Cloud 4.1、国内的千问3.5和V3,它们都属于这层,是整个系统的智力来源。
但这个大脑本身,只是一个由海量参数的计算节点组成的巨大网络。大脑神经网络的工作模式其实非常简单:接收一串输入信息,然后通过数亿个神经元进行一次计算,最后输出一串代表想法或决策的信息。但这个想法要传递给谁、决策要怎么执行,大脑本身是没办法控制的——它只负责想,不负责做。
这里举一个人类大脑的例子:假设你在机场出口,眼睛(一个传感器)突然看到了一个多年未见的好友。这个视觉信息被转化成电信号,迅速传递给你的大脑(模型层)。然后大脑开始高速运转,首先识别出这张熟悉的面孔,并瞬间理解当下的情景:“哦,这是人类和AI的好伙伴秋芝2046啊,我太惊喜了!”
然后他结合当下的环境,和你跟秋芝2046之间的深厚友谊,进行快速的推理。经过0点几秒思考,大脑最终形成了一个决策,或者说一个行动意图:决定张开双臂给他一个热情的拥抱。到此为止,模型层的工作就全部完成了。
他最终的产出就是一个清晰的包含了目标和行动方案的意图指令。在大模型里面可能是一段JSON代码。比如说,这个action动作是拥抱,目标是秋芝2046,类型是温暖的拥抱。但关键在于,这个意图本身不具备任何物理力量,它只是一串纯粹的信号。
那这个指令要怎么变成真实的动作呢?这就需要我们接下来讲到的第二层调度层。调度层可以理解为Agent的一个神经中枢。刚刚大脑这个模型层已经产生了一个意图,说我要来一个拥抱,这个信号会先给到神经中枢。他接到信号之后,大概会有三步操作。
首先他会解析这个指令,把大脑发过来的信息提取出来看看要做什么。一解析,他发现这是一串需要多个身体部位协同的子任务。然后他就把解析出来的指令迅速分解成任务,按照部位一一对应上,再按照正确的顺序逐个发给不同的身体组件。甚至有些部分执行完的结果还得发回给模型层去反馈一下。比如他会给脸部肌肉发信号,让他先笑起来,再告诉大腿小腿往前迈步。
那得知他到了地方以后,抬起胳膊,抱住它等等。总而言之,调度层是Agent连接思考和行动之间的桥梁,也被称为编排层。在Agent领域里,像LangGraph、LlamaIndex、CrewAI这些我们称之为Agent框架的东西,就是用来编写这个Agent的神经中枢的。这个调度层负责了Agent内部流程的控制和信息的流转,同时也负责了一些短期记忆。
这些开发者朋友应该会比较熟悉。目前这些流行的开源框架大多都是海外的,但是国内也在发力,比如说阿里。
万A选他,那也随着千问系列在全世界成为最多开发者使用的开源模型,它的开发生态也好了起来。
那我们现在知道了,大脑产生了这个拥抱的想法,神经中枢调度层也规划好了动作的每一步。但是这里有一个根本的问题。
为什么大脑会产生要报特定的这个人,而不是旁边的陌生人呢?答案就在记忆层。
G层是给Agent所有的决策提供了至关重要的上下文,它也很复杂,就像人类的记忆一样,它可以分为几种不同的类型。
第一,内置记忆是模型在训练阶段就学到的、固化在它神经网络参数里面的世界知识。
当你问Agent太阳系大概有几大行星,它大概率每次都能答对,那靠的就是这个记忆。但有意思的是,跟人类的记忆一样,这些知识和记忆并不像一个存在硬盘里的文件,而是你每一次提问它的时候,都是这个神经网络再给你计算一遍,重新生成出这个答案。这种记忆构成了Agent的一个知识底座,但缺点是模型训练完就没法更新了,除非你再次训练。
第二种是短期绘画记忆,这是我们最常接触到的一种记忆。我们平时在跟AI连续对话的时候,你会发现它在一定范围内…
都能记住刚刚聊过的内容,这就是短期记忆,也就是大家口中经常说的上下文长度。然而,这里的”记住”又是一个假象,或者说是一个巧妙的机制。因为大模型本身是无状态的,它不会真的记得任何东西。
实际上,调度层在扮演秘书的角色。每当你发送一句话过去,调度层都会把前面所有的聊天记录打包起来,一次性全盘发给大模型。模型层每一次收到的永远都是一个包含了完整上下文的”剧本”。我们经常说的上下文窗口长度,实际上就是这个剧本的最大长度限制。这也解释了为什么对话越到后来,每次对话所消耗的token会越多。
既然内置记忆需要重新训练才能更新,短期记忆又有长度限制还很贵。
那么当Agent要做那种步骤很多、跨度很长的复杂任务时怎么办?这时候还会有一个中期的工作记忆。Agent在执行了一些步骤之后,可以把关键的结果观察或中间结论提炼总结一下,然后存储到一个临时的暂存区。后续的步骤可以从这个暂存的工作记忆里调取信息,放入上下文,帮助大脑决策。不过这种记忆是任务导向的,任务结束了它就可以被清除。同时,有的Agent我们还希望它能实现个性化,让Agent可以认识我们,让他记住你的个人信息,比如这位用户对花生过敏,他喜欢的球队是某某队。这些信息也可以被长期存储起来。
在每一次交互的时候都被调用发给他来提供个性化的服务。那像这两种中长期的记忆也有 BT、Memo零 这样的项目,他们就是去解决和探索。
怎么样让 Agent 更智能地去管理这类记忆,甚至总结和适当地去遗忘。但光有这些还不够。如果我想根据我们公司1万个商品的KU来回答问题或者行动了。
那这些东西既没有训练到模型里,也没有在他刚才这些记忆里面,还特别的多。那这个时候你就需要最后一种,也是现在最常见的一种记忆——外部记忆库,也就是咱们可能都听说过的RAG(检索增强生成)。它就像给了agent一个随时可以翻阅的参考书或者资料库。他会去这个外部知识库里面先检索出一些相关的信息,然后结合这些信息和你提出的问题,一起作为上下文来生成一个答案。
那总结一下,内置记忆提供了基础的智能。
短期记忆能够处理当前对话的上下文,而中长记忆给了Agent执行复杂任务和个性化的能力。外部记忆让Agent有了随时可查的参考书。所以你看为什么Agent的token消耗那么大,收费也都那么贵。它做个任务需要的记忆就已经这么多了,而且还有下面要说的东西。
到这里,我们的Agent已经有了思考、调度和记忆,但决定它是否能真正替我们完成任务、能否被称为一个Agent的关键,在于它是否能够利用工具采取真正的行动。这就到了工具层。人类工具的演进其实经历了从原始…
我们的身体、手脚,再到天然工具如木棍、石头,最后到发明创造的锤子。
从蒸汽机到通用平台。
我们现在的电脑手机,甚至到现在还发明了AI这种超越的存在。Agent的工具也有类似的演进路径,而且速度快得吓人。 最初Agent的工具是各种单一功能的API,比如说调用一个搜索引擎、一个天气查询接口或者是一个计算器。不过早期API的调用和开发都很麻烦,于是出现了CP协议,这种标准的协议让人们减少了重复造轮子,Agent的工具调用也变得更便捷了。越来越多的传统应用也开放了自己的CP服务,工具也变得更丰富了。然后伴随着模型能力的提高,Agent就学会了用更强大的通用工具,它学会了操作浏览器,就可以像人类一样。
去浏览网页、填表单、获取信息,不再受限于固定的API。他甚至学会了看电脑屏幕和操作电脑,于是可以用电脑里的各种应用,如Word、Excel,甚至别的AI也可以去执行一些终端命令、写文件、下载软件。甚至他可以用电脑编程,自己来写程序,自己为某个任务创造工具。
所以到现在,Agent的工具也走向了越来越通用、越来越强大。它开始拥有云端的专用工作环境。
比如今年大云厂商们——亚马逊、AWS、阿里云啊,还有火起来的一个初创企业叫AgentBay。他们呢,都在做一种专门给agent用的工作环境。AWS的AgentCore、阿里云的无影云电脑,而且他们都很重视这个业务。这个AgentBay就是阿里AI战略的一个核心基建之一。为啥说是专给agent用的呢?因为你不想给agent用你的工作空间,你的电脑跟我一起在本。
运行过Agent的朋友应该知道,为了把你自己的电脑给Agent用,要配置环境,下载一堆东西,安装工具都很麻烦。而且它执行任务的时候,比如看你的浏览器时,就霸占了你的电脑,让你做不了别的事,还有抽风删掉你文件的风险。我们给它权限吧,它老需要我们去点同意;不给权限吧,它又没法工作。
比如阿里云的无影Agent,它提供的云电脑、云手机浏览器和代码空间,这些沙箱环境都预装好了工具,环境也配置好了,可以说是让Agent开箱即用。而且这个无影Agent还有个text记忆层,它有工具记忆功能,就像我们工作完第二天打开电脑,你的软件和文件都还在一样。
Agent在这里完成任务的上下文,它生成的文件都会被单独持久化保存。甚至你下次在另一台云电脑或云手机上,都可以无缝衔接之前的工作。Agent就拥有了真正属于自己的长期工作资料。另外它还有一个自净化系统,把整个沙箱作为强化学习的真实环境。
Agent在其中的所有数据和结果,都会变成它的反馈数据,帮助它不断学习和进化。
比如说第一次他这样操作错了,下一次他就不会再这样操作了。如果他发现你的喜好是这样的,那之后就会沿用同样的方式来给你干活,相当于在这个工作环境里教你的agent怎么把工具用得更好。还有一个重要的点:agent不像我们人类一次只能操作一个电脑,它可以同时发起很多动作和任务。
我们只给Agent用自己的一台小破电脑,实际上是限制了他的能力。但像AgentBay,它是在云端的。
弹性的支持高并发,它可以瞬间调度上万台高性能的云电脑。
那这种一站式的agent工作环境也是近期的一个趋势。你会看到近期出的这些agent都带有一个云端的沙箱,比如Kimi最近的Kcomp,它也是用一台云电脑。豆包的agent也是会操作一个云端浏览器,以及前段时间火的智普AutoLM,他们接收完命令就自己去了一台云手机上,给你使用APP点餐、查东西什么的。这个智普用的应该就是AgentBay的一个云手机。
然而,随着agent用工具的能力越来越强,我们自己包括中小企业都很难给我们的agent提供这么通用而且强大的工具。就像人类现在最常用的工具——手机、电脑,这些高级通用的工具不可能都是我们自己去造、自己提供的。所以给agent打造专用、便捷、强大的工具,某种程度上也是这些有技术、有资金、有算力的大企业的某种发展责任了。
不过,搞得这么强大,agent也会伴随更多的问题和风险,这就引出了确保它能够安全、可靠的第五层——运维和治理层。运维其实对应着让agent能够稳定地持续运行。
治理就对应着安全问题。以人类这种智能体为例,为了持续稳定运行,我们需要吃饭、睡觉,需要有疲劳感来防止过度消耗。
这个呢是我们的运维机制。安全上来说,人类其实也被设置了一些天性。例如说我们生来就不倾向于自残、同类相残,不然大家的运行时间都会大大缩短。当然也会有一些人类存在没有对其好的情况,那么我们一般称之为变态。
而且包括人类会撒谎、会隐瞒这些行为,我认为其实也是起到一定安全机制作用的。它可以让我们隐藏一些有害的想法和不安全的信息。甚至在《三体》里,撒谎这个能力还成了保护人类安全、抵御三体人的关键。
到了社会上,我们开始跟其他人大规模协作。人们又设置了一些法律、道德之类的规则来作为监管和约束,这些是我们的治理机制。
Agent也同样需要这套系统。运维上,我们需要它在高负载情况下能够正常运行,还需要能观测其行为,同时避免无意义的算力消耗等。
那安全问题,例如说提示注入攻击套取你的隐私机密什么的,越权攻击、数据投毒等等。而且Agent才刚刚兴起,针对它的安全措施可以说了解的人还非常少。所以对于现在的AI黑客来说,简直是黄金年代,一黑一个准。一般技术能力不强的中小企业,都比较难招架。不过要攻击一个顶级云厂商的数据中心,和攻击我们的个人电脑或者是企业自建服务器,难度完全不在一个量级了。
所以比较反直觉的是,让Agent在本地工作并没有更安全,它相当于裸奔在本地环境。在运维和治理上,其实用云服务是有一定优势的。比如阿里云本身,跟做传统云服务就有一整套完整的、强大的身份管理和安全系统,它就直接用在了Agent的架构里面。
这也是为什么很多企业都选择用云端的沙箱和算力,以及阿里云最近股票涨得这么猛的原因。这几层都提到了阿里,看来他确实是在做这个全站AI服务商了,国产的大厂们也都加油啊。
那最后我们再来看更有想象力的一层,我编的名字——社会层。人类能走到今天,甚至我们的祖先智人能够打败大脑更大、身体更强壮的尼安德特人,靠的就是协作。也是协作让我们小小的人类造出了金字塔,发出了火箭,把世界打造成了今天这种奇妙的样子。
为了更好的协作,我们人类其实发明了很多架构协议。
例如说两个人组成的家庭架构。
一伙人组成的公司架构、民间组织架构等等。这些架构也对应着多种协议,比如婚姻协议、劳动协议、贸易协议等。这些协作的框架和协议构成了我们的社会,让整个人类命运共同体发挥出了更大的能力。
Agent也一样,他们也可以通过彼此协作来做更大更多的事,甚至是组成一个庞大的集体式Agent智慧体,乃至加入或创造出Agent的经济体。只不过Agent的协作目前还没有人类这么成熟。大家可能多少听过这个Multi-Agent,有一些多Agent的架构,也可能听说过谷歌的A2A协议——让Agent能够顺畅沟通的协议。
虽然还不多,但都是朝这个方向发展,这也是业界流行的趋势,很有想象力。好,那我们快速总结一下:一个真正强大的agent背后是一个完整的生命系统。它有聪明的大脑——模型层,灵活的神经中枢——调度层,靠谱的记忆——记忆层,能干的手脚和强大的工具箱——工具层,健康的免疫系统和行为准则——运维治理层,以及跟同伴协作融入集体的方式——社会层。
这6个层面合起来,就是我们今天说的Agent。
虽然我们作为用户,发现某个agent不好用的时候,第一反应往往觉得这大模型不够聪明。就像我们看到一个人做事不太行,就喜欢说这脑子不太好使。但今天拆解完,你会发现,决定一个agent是否强大可靠的因素,远远不止它的大脑一个,还有这些水电煤一样的基建。这个道理其实也很显然,人类的大脑构造已经数万年没有什么飞跃式的进步了。
但我们今天能够做到的这些事,对于古人来说相当于神迹。
然而,让我们变得如此强大的不是大脑本身,而是我们不断升级的工具,以及我们创造出日益精妙的协奏框架,是这些基础设施在不断突破人类整个物种的能力上限。
Agent的发展也是如此。 当这一套基础设施足够完备的时候,我们可以想象AI成为新一代操作系统的画面,而且现在就有了这个曙光。
比如说OpenAI前两天的发布,让我们能直接跟GPT对话,让AI代表我们去操作其他的软件。还有阿里云前段时间也发了一个概念产品,叫无影云电脑,一台专属于你的、认识你的、记住你的、拥有无限算力的智能化云电脑。我们只需要用自然语言去跟AI下达任务,而真正的操作都是由agent在云端协同完成。届时我们所有软件的入口都不是那些按钮UI,而是AI。
这样一来,我们身边所有的智能设备——手表、手机、智能戒指、音箱、汽车甚至冰箱、扫地机器人,也都可以成为我们跟云端Agent交互的入口。想象一下,你对你家里的智能灯说:“帮我订一张明天去巴黎的机票,并且把我昨天剩下的工作干完。”在云端,一个由各种Agent组成的队伍已经帮你处理好了一切。
更多推荐


所有评论(0)