Agent Infra到底是什么？【AI基建】

后续的步骤可以从这个暂存的工作记忆里调取信息，放入上下文，帮助大脑决策。同时，有的Agent我们还希望它能实现个性化，让Agent可以认识我们，让他记住你的个人信息，比如这位用户对花生过敏，他喜欢的球队是某某队。它有聪明的大脑——模型层，灵活的神经中枢——调度层，靠谱的记忆——记忆层，能干的手脚和强大的工具箱——工具层，健康的免疫系统和行为准则——运维治理层，以及跟同伴协作融入集体的方式——社会层

趁你还年轻_

922人浏览 · 2025-12-09 13:47:53

趁你还年轻_ · 2025-12-09 13:47:53 发布

是时候重新认识Agent了，AI agent pushing the future forward ever。N2.5亿美元，重价59亿美元，估值18亿美元，一个泡泡起早要爆的。

没有啊，朋友们，今天我们来用20分钟重新认识 Agent 的背后。看完这一条，你就能在每次有那些炸裂的Agent出现的时候，看穿他们背后的那些事儿。话不多说，点好收藏关注赞，我们开始吧。

其实Agent的定义我之前有做过一些视频。最简单抽象的定义就一句话：能够代理人类并且自主行动完成目标的AI系统。再展开一点，就是一种具备感知能力、有记忆、能自主决策，并且采取行动以实现特定目标的AI系统。但如果要真正落地帮我们完成复杂任务，这个简单的Agent定义就需要…

发展成一个像人类或者人类社会一样复杂的智能系统。

我总结了一个比较便于理解的六层AI框架：模型层、调度层、记忆层、工具层、运维和治理层、社会层。好，别走，别怕，光听这些名字肯定是一头雾水。草吕虫师傅在此。那俗话说的好，要想富先修路，Agent也是一样。要想Agent跑得好，基建你可少不了。刚刚我说的这些其实都属于Agent的基建Agent Infra。

我们一个个来讲。第一个最核心的模型层，这个比较好理解，就是agent的大脑——大语言模型。它负责最关键的思考、推理和决策。像我们熟悉的GPT-5、Cloud 4.1、国内的千问3.5和V3，它们都属于这层，是整个系统的智力来源。

但这个大脑本身，只是一个由海量参数的计算节点组成的巨大网络。大脑神经网络的工作模式其实非常简单：接收一串输入信息，然后通过数亿个神经元进行一次计算，最后输出一串代表想法或决策的信息。但这个想法要传递给谁、决策要怎么执行，大脑本身是没办法控制的——它只负责想，不负责做。

这里举一个人类大脑的例子：假设你在机场出口，眼睛（一个传感器）突然看到了一个多年未见的好友。这个视觉信息被转化成电信号，迅速传递给你的大脑（模型层）。然后大脑开始高速运转，首先识别出这张熟悉的面孔，并瞬间理解当下的情景：“哦，这是人类和AI的好伙伴秋芝2046啊，我太惊喜了！”

然后他结合当下的环境，和你跟秋芝2046之间的深厚友谊，进行快速的推理。经过0点几秒思考，大脑最终形成了一个决策，或者说一个行动意图：决定张开双臂给他一个热情的拥抱。到此为止，模型层的工作就全部完成了。

他最终的产出就是一个清晰的包含了目标和行动方案的意图指令。在大模型里面可能是一段JSON代码。比如说，这个action动作是拥抱，目标是秋芝2046，类型是温暖的拥抱。但关键在于，这个意图本身不具备任何物理力量，它只是一串纯粹的信号。

那这个指令要怎么变成真实的动作呢？这就需要我们接下来讲到的第二层调度层。调度层可以理解为Agent的一个神经中枢。刚刚大脑这个模型层已经产生了一个意图，说我要来一个拥抱，这个信号会先给到神经中枢。他接到信号之后，大概会有三步操作。

首先他会解析这个指令，把大脑发过来的信息提取出来看看要做什么。一解析，他发现这是一串需要多个身体部位协同的子任务。然后他就把解析出来的指令迅速分解成任务，按照部位一一对应上，再按照正确的顺序逐个发给不同的身体组件。甚至有些部分执行完的结果还得发回给模型层去反馈一下。比如他会给脸部肌肉发信号，让他先笑起来，再告诉大腿小腿往前迈步。

那得知他到了地方以后，抬起胳膊，抱住它等等。总而言之，调度层是Agent连接思考和行动之间的桥梁，也被称为编排层。在Agent领域里，像LangGraph、LlamaIndex、CrewAI这些我们称之为Agent框架的东西，就是用来编写这个Agent的神经中枢的。这个调度层负责了Agent内部流程的控制和信息的流转，同时也负责了一些短期记忆。

这些开发者朋友应该会比较熟悉。目前这些流行的开源框架大多都是海外的，但是国内也在发力，比如说阿里。

万A选他，那也随着千问系列在全世界成为最多开发者使用的开源模型，它的开发生态也好了起来。

那我们现在知道了，大脑产生了这个拥抱的想法，神经中枢调度层也规划好了动作的每一步。但是这里有一个根本的问题。

为什么大脑会产生要报特定的这个人，而不是旁边的陌生人呢？答案就在记忆层。

G层是给Agent所有的决策提供了至关重要的上下文，它也很复杂，就像人类的记忆一样，它可以分为几种不同的类型。

第一，内置记忆是模型在训练阶段就学到的、固化在它神经网络参数里面的世界知识。

当你问Agent太阳系大概有几大行星，它大概率每次都能答对，那靠的就是这个记忆。但有意思的是，跟人类的记忆一样，这些知识和记忆并不像一个存在硬盘里的文件，而是你每一次提问它的时候，都是这个神经网络再给你计算一遍，重新生成出这个答案。这种记忆构成了Agent的一个知识底座，但缺点是模型训练完就没法更新了，除非你再次训练。

第二种是短期绘画记忆，这是我们最常接触到的一种记忆。我们平时在跟AI连续对话的时候，你会发现它在一定范围内…

都能记住刚刚聊过的内容，这就是短期记忆，也就是大家口中经常说的上下文长度。然而，这里的”记住”又是一个假象，或者说是一个巧妙的机制。因为大模型本身是无状态的，它不会真的记得任何东西。

实际上，调度层在扮演秘书的角色。每当你发送一句话过去，调度层都会把前面所有的聊天记录打包起来，一次性全盘发给大模型。模型层每一次收到的永远都是一个包含了完整上下文的”剧本”。我们经常说的上下文窗口长度，实际上就是这个剧本的最大长度限制。这也解释了为什么对话越到后来，每次对话所消耗的token会越多。

既然内置记忆需要重新训练才能更新，短期记忆又有长度限制还很贵。

那么当Agent要做那种步骤很多、跨度很长的复杂任务时怎么办？这时候还会有一个中期的工作记忆。Agent在执行了一些步骤之后，可以把关键的结果观察或中间结论提炼总结一下，然后存储到一个临时的暂存区。后续的步骤可以从这个暂存的工作记忆里调取信息，放入上下文，帮助大脑决策。不过这种记忆是任务导向的，任务结束了它就可以被清除。同时，有的Agent我们还希望它能实现个性化，让Agent可以认识我们，让他记住你的个人信息，比如这位用户对花生过敏，他喜欢的球队是某某队。这些信息也可以被长期存储起来。

在每一次交互的时候都被调用发给他来提供个性化的服务。那像这两种中长期的记忆也有 BT、Memo零 这样的项目，他们就是去解决和探索。

怎么样让 Agent 更智能地去管理这类记忆，甚至总结和适当地去遗忘。但光有这些还不够。如果我想根据我们公司1万个商品的KU来回答问题或者行动了。

那这些东西既没有训练到模型里，也没有在他刚才这些记忆里面，还特别的多。那这个时候你就需要最后一种，也是现在最常见的一种记忆——外部记忆库，也就是咱们可能都听说过的RAG（检索增强生成）。它就像给了agent一个随时可以翻阅的参考书或者资料库。他会去这个外部知识库里面先检索出一些相关的信息，然后结合这些信息和你提出的问题，一起作为上下文来生成一个答案。

那总结一下，内置记忆提供了基础的智能。

短期记忆能够处理当前对话的上下文，而中长记忆给了Agent执行复杂任务和个性化的能力。外部记忆让Agent有了随时可查的参考书。所以你看为什么Agent的token消耗那么大，收费也都那么贵。它做个任务需要的记忆就已经这么多了，而且还有下面要说的东西。

到这里，我们的Agent已经有了思考、调度和记忆，但决定它是否能真正替我们完成任务、能否被称为一个Agent的关键，在于它是否能够利用工具采取真正的行动。这就到了工具层。人类工具的演进其实经历了从原始…

我们的身体、手脚，再到天然工具如木棍、石头，最后到发明创造的锤子。

从蒸汽机到通用平台。

我们现在的电脑手机，甚至到现在还发明了AI这种超越的存在。Agent的工具也有类似的演进路径，而且速度快得吓人。 最初Agent的工具是各种单一功能的API，比如说调用一个搜索引擎、一个天气查询接口或者是一个计算器。不过早期API的调用和开发都很麻烦，于是出现了CP协议，这种标准的协议让人们减少了重复造轮子，Agent的工具调用也变得更便捷了。越来越多的传统应用也开放了自己的CP服务，工具也变得更丰富了。然后伴随着模型能力的提高，Agent就学会了用更强大的通用工具，它学会了操作浏览器，就可以像人类一样。

去浏览网页、填表单、获取信息，不再受限于固定的API。他甚至学会了看电脑屏幕和操作电脑，于是可以用电脑里的各种应用，如Word、Excel，甚至别的AI也可以去执行一些终端命令、写文件、下载软件。甚至他可以用电脑编程，自己来写程序，自己为某个任务创造工具。

所以到现在，Agent的工具也走向了越来越通用、越来越强大。它开始拥有云端的专用工作环境。

比如今年大云厂商们——亚马逊、AWS、阿里云啊，还有火起来的一个初创企业叫AgentBay。他们呢，都在做一种专门给agent用的工作环境。AWS的AgentCore、阿里云的无影云电脑，而且他们都很重视这个业务。这个AgentBay就是阿里AI战略的一个核心基建之一。为啥说是专给agent用的呢？因为你不想给agent用你的工作空间，你的电脑跟我一起在本。

运行过Agent的朋友应该知道，为了把你自己的电脑给Agent用，要配置环境，下载一堆东西，安装工具都很麻烦。而且它执行任务的时候，比如看你的浏览器时，就霸占了你的电脑，让你做不了别的事，还有抽风删掉你文件的风险。我们给它权限吧，它老需要我们去点同意；不给权限吧，它又没法工作。

比如阿里云的无影Agent，它提供的云电脑、云手机浏览器和代码空间，这些沙箱环境都预装好了工具，环境也配置好了，可以说是让Agent开箱即用。而且这个无影Agent还有个text记忆层，它有工具记忆功能，就像我们工作完第二天打开电脑，你的软件和文件都还在一样。

Agent在这里完成任务的上下文，它生成的文件都会被单独持久化保存。甚至你下次在另一台云电脑或云手机上，都可以无缝衔接之前的工作。Agent就拥有了真正属于自己的长期工作资料。另外它还有一个自净化系统，把整个沙箱作为强化学习的真实环境。

Agent在其中的所有数据和结果，都会变成它的反馈数据，帮助它不断学习和进化。

比如说第一次他这样操作错了，下一次他就不会再这样操作了。如果他发现你的喜好是这样的，那之后就会沿用同样的方式来给你干活，相当于在这个工作环境里教你的agent怎么把工具用得更好。还有一个重要的点：agent不像我们人类一次只能操作一个电脑，它可以同时发起很多动作和任务。

我们只给Agent用自己的一台小破电脑，实际上是限制了他的能力。但像AgentBay，它是在云端的。

弹性的支持高并发，它可以瞬间调度上万台高性能的云电脑。

那这种一站式的agent工作环境也是近期的一个趋势。你会看到近期出的这些agent都带有一个云端的沙箱，比如Kimi最近的Kcomp，它也是用一台云电脑。豆包的agent也是会操作一个云端浏览器，以及前段时间火的智普AutoLM，他们接收完命令就自己去了一台云手机上，给你使用APP点餐、查东西什么的。这个智普用的应该就是AgentBay的一个云手机。

然而，随着agent用工具的能力越来越强，我们自己包括中小企业都很难给我们的agent提供这么通用而且强大的工具。就像人类现在最常用的工具——手机、电脑，这些高级通用的工具不可能都是我们自己去造、自己提供的。所以给agent打造专用、便捷、强大的工具，某种程度上也是这些有技术、有资金、有算力的大企业的某种发展责任了。

不过，搞得这么强大，agent也会伴随更多的问题和风险，这就引出了确保它能够安全、可靠的第五层——运维和治理层。运维其实对应着让agent能够稳定地持续运行。

治理就对应着安全问题。以人类这种智能体为例，为了持续稳定运行，我们需要吃饭、睡觉，需要有疲劳感来防止过度消耗。

这个呢是我们的运维机制。安全上来说，人类其实也被设置了一些天性。例如说我们生来就不倾向于自残、同类相残，不然大家的运行时间都会大大缩短。当然也会有一些人类存在没有对其好的情况，那么我们一般称之为变态。

而且包括人类会撒谎、会隐瞒这些行为，我认为其实也是起到一定安全机制作用的。它可以让我们隐藏一些有害的想法和不安全的信息。甚至在《三体》里，撒谎这个能力还成了保护人类安全、抵御三体人的关键。

到了社会上，我们开始跟其他人大规模协作。人们又设置了一些法律、道德之类的规则来作为监管和约束，这些是我们的治理机制。

Agent也同样需要这套系统。运维上，我们需要它在高负载情况下能够正常运行，还需要能观测其行为，同时避免无意义的算力消耗等。

那安全问题，例如说提示注入攻击套取你的隐私机密什么的，越权攻击、数据投毒等等。而且Agent才刚刚兴起，针对它的安全措施可以说了解的人还非常少。所以对于现在的AI黑客来说，简直是黄金年代，一黑一个准。一般技术能力不强的中小企业，都比较难招架。不过要攻击一个顶级云厂商的数据中心，和攻击我们的个人电脑或者是企业自建服务器，难度完全不在一个量级了。

所以比较反直觉的是，让Agent在本地工作并没有更安全，它相当于裸奔在本地环境。在运维和治理上，其实用云服务是有一定优势的。比如阿里云本身，跟做传统云服务就有一整套完整的、强大的身份管理和安全系统，它就直接用在了Agent的架构里面。

这也是为什么很多企业都选择用云端的沙箱和算力，以及阿里云最近股票涨得这么猛的原因。这几层都提到了阿里，看来他确实是在做这个全站AI服务商了，国产的大厂们也都加油啊。

那最后我们再来看更有想象力的一层，我编的名字——社会层。人类能走到今天，甚至我们的祖先智人能够打败大脑更大、身体更强壮的尼安德特人，靠的就是协作。也是协作让我们小小的人类造出了金字塔，发出了火箭，把世界打造成了今天这种奇妙的样子。

为了更好的协作，我们人类其实发明了很多架构协议。

例如说两个人组成的家庭架构。

一伙人组成的公司架构、民间组织架构等等。这些架构也对应着多种协议，比如婚姻协议、劳动协议、贸易协议等。这些协作的框架和协议构成了我们的社会，让整个人类命运共同体发挥出了更大的能力。

Agent也一样，他们也可以通过彼此协作来做更大更多的事，甚至是组成一个庞大的集体式Agent智慧体，乃至加入或创造出Agent的经济体。只不过Agent的协作目前还没有人类这么成熟。大家可能多少听过这个Multi-Agent，有一些多Agent的架构，也可能听说过谷歌的A2A协议——让Agent能够顺畅沟通的协议。

虽然还不多，但都是朝这个方向发展，这也是业界流行的趋势，很有想象力。好，那我们快速总结一下：一个真正强大的agent背后是一个完整的生命系统。它有聪明的大脑——模型层，灵活的神经中枢——调度层，靠谱的记忆——记忆层，能干的手脚和强大的工具箱——工具层，健康的免疫系统和行为准则——运维治理层，以及跟同伴协作融入集体的方式——社会层。

这6个层面合起来，就是我们今天说的Agent。

虽然我们作为用户，发现某个agent不好用的时候，第一反应往往觉得这大模型不够聪明。就像我们看到一个人做事不太行，就喜欢说这脑子不太好使。但今天拆解完，你会发现，决定一个agent是否强大可靠的因素，远远不止它的大脑一个，还有这些水电煤一样的基建。这个道理其实也很显然，人类的大脑构造已经数万年没有什么飞跃式的进步了。

但我们今天能够做到的这些事，对于古人来说相当于神迹。

然而，让我们变得如此强大的不是大脑本身，而是我们不断升级的工具，以及我们创造出日益精妙的协奏框架，是这些基础设施在不断突破人类整个物种的能力上限。

Agent的发展也是如此。 当这一套基础设施足够完备的时候，我们可以想象AI成为新一代操作系统的画面，而且现在就有了这个曙光。

比如说OpenAI前两天的发布，让我们能直接跟GPT对话，让AI代表我们去操作其他的软件。还有阿里云前段时间也发了一个概念产品，叫无影云电脑，一台专属于你的、认识你的、记住你的、拥有无限算力的智能化云电脑。我们只需要用自然语言去跟AI下达任务，而真正的操作都是由agent在云端协同完成。届时我们所有软件的入口都不是那些按钮UI，而是AI。

这样一来，我们身边所有的智能设备——手表、手机、智能戒指、音箱、汽车甚至冰箱、扫地机器人，也都可以成为我们跟云端Agent交互的入口。想象一下，你对你家里的智能灯说：“帮我订一张明天去巴黎的机票，并且把我昨天剩下的工作干完。”在云端，一个由各种Agent组成的队伍已经帮你处理好了一切。