前言

2025年岁末,AI领域呈现出一种奇特的双线叙事:一边是学术圈对大模型能力边界的持续探索,另一边则是产业界对Agent落地路径的狂热追逐。从NeurIPS到re:Invent,从硅谷车库到云厂商展厅,“Agent”成了高频词。然而,在这股热潮背后,越来越多一线工程师和创业者开始发出冷静声音——技术的热度不等于商业的成熟度。作为一名长期关注AI基础设施演进的观察者,笔者认为,当前Agent的发展正处于一个关键的十字路口:它既承载着释放AI真正价值的希望,又深陷于算力、成本与生态适配的泥沼之中。这篇文章不为唱衰,也不为鼓吹,而是试图拨开喧嚣,从工程实践、系统架构与经济模型三个维度,厘清Agent真正要走通的路还有多远。我们需要的不是更多“干杯就醉”的口号,而是一套能支撑Agent稳定运行的底层逻辑。

1. Agent为何被寄予厚望?

1.1 从“工具调用”到“自主决策”的范式跃迁

传统AI应用多为被动响应式系统:用户输入问题,模型返回答案。这种模式下,AI始终是人类指令的执行者。Agent则不同,它具备目标驱动、环境感知、工具调用与自我反思的能力。一个典型的Agent可以拆解复杂任务(如“帮我规划一次跨州自驾游”),自主调用地图API、酒店预订系统、天气服务等多个工具,并在执行过程中根据反馈动态调整策略。这种能力让AI从“问答机”升级为“协作者”。

1.2 开发效率的指数级提升

业界普遍认为,Agent能将软件开发效率提升数十倍甚至百倍。原因在于,它可自动完成需求分析、代码生成、测试验证等环节。对于重复性高、规则明确的任务(如数据清洗、报表生成),Agent几乎可实现“零人工干预”。这种潜力直接吸引了大量VC资金涌入,也促使云厂商将Agent作为下一代AI基础设施的核心。

2. 推理成本:压在Agent头上的第一座大山

2.1 成本结构失衡:80%以上支出用于推理

当前主流Agent架构严重依赖大语言模型(LLM)进行推理。每次任务分解、工具选择、结果整合都需调用模型,尤其在处理长上下文或多轮交互时,Token消耗呈几何级增长。据多位创业者披露,推理成本占Agent总运营成本的80%–90%。这意味着即便用户订阅费为每月30美元,若推理成本超过25美元,商业模式便难以为继。

  • 实心圆 模型调用频次高:一个简单任务可能触发5–10次模型调用
  • 实心圆 上下文长度膨胀:为保持任务连贯性,需携带完整历史对话,大幅增加Token数
  • 实心圆 “Pro”模型依赖:普通模型无法胜任复杂逻辑,必须使用更昂贵的高性能版本

2.2 算力瓶颈正在从GPU转向内存

过去几年,行业焦点集中在GPU短缺。如今,随着Agent对长序列处理的需求激增,内存带宽与容量成为新瓶颈。训练一个支持万级Token上下文的Agent,不仅需要高显存GPU,还需高速HBM内存支持。一位亚马逊工程师指出:“我们现在不是缺算力,是缺‘记性’——Agent需要记住太多中间状态。”

资源类型 2023年瓶颈 2025年瓶颈 主要原因
GPU 分布式推理优化、模型压缩
内存 长上下文、多Agent并发
网络带宽 中高 多工具调用、数据同步

2.3 “Develop for Cost”成为新开发哲学

在美国Agent创业圈,“为降低成本而开发”已成共识。开发者不再优先追求功能完整性,而是从架构设计之初就嵌入成本控制机制:

  • (1) 缓存常用推理结果,避免重复调用
  • (2) 使用轻量级模型处理简单子任务
  • (3) 设计任务中断与恢复机制,减少无效计算

这种转变标志着Agent开发从“功能导向”进入“经济可行导向”阶段。

3. 软件生态尚未准备好迎接Agent

3.1 当前软件为人设计,非为AI设计

现有软件系统建立在人类交互假设之上:图形界面、点击操作、表单填写。这些对Agent而言都是低效甚至不可用的。Agent需要的是结构化、可编程、低延迟的接口。例如,一个电商网站若只提供网页UI而无API,Agent就无法自动比价或下单。

  • 实心圆 数据孤岛问题:用户订单、物流、客服记录分散在不同系统,Agent需多次认证、转换格式才能获取完整视图
  • 实心圆 接口语义模糊:REST API缺乏统一语义描述,Agent难以理解“/api/v1/createOrder”具体需要哪些字段
  • 实心圆 错误处理不友好:人类可理解“库存不足”提示,但Agent可能因未预设该错误码而陷入死循环

3.2 Agent需要专属的交互语言

正如SQL之于数据库,Agent也需要一套标准化的交互协议。这套语言应具备:

  • (1) 声明式语法:Agent只需说明“要什么”,而非“怎么做”
  • (2) 工具发现机制:自动列出可用工具及其参数规范
  • (3) 状态感知能力:允许Agent查询当前任务进展

目前,OpenAPI、Tool Calling等标准仍在演进中,尚未形成统一生态。

3.3 幻觉与失控风险源于交互复杂性

当Agent面对数十个可用工具时,注意力机制可能被稀释,导致错误选择工具或误解参数。例如,将“发送邮件”误判为“创建日历事件”。这种“智力下降”现象并非模型本身缺陷,而是交互环境过于嘈杂所致。黄东旭指出:“AI讨厌不确定性,而当前软件世界充满了不确定性。”

4. 基础设施:被忽视的破局关键

4.1 Infra层创业迎来黄金窗口

降低推理成本不能仅靠模型压缩,更需底层基础设施创新。2025年,Infra赛道出现多个突破方向:

  • 实心圆 专用推理芯片:如Enfabrica的DPU架构,通过硬件卸载通信与调度开销
  • 实心圆 向量数据库优化:支持高效记忆检索,减少重复推理
  • 实心圆 Serverless推理平台:按实际Token用量计费,避免资源闲置

英伟达重金收购Infra初创公司,正是看中其在降低单位Token成本上的潜力。

4.2 数据库厂商的战略转向

Snowflake、MongoDB等数据库公司不再满足于“存储数据”,而是主动适配Agent需求:

  • (1) 支持自然语言查询:用户或Agent可直接用“找出上月销售额最高的产品”提问
  • (2) 内置工具注册中心:数据库自身成为可被调用的工具
  • (3) 实时数据流集成:确保Agent获取最新业务状态

这种转变意味着数据库正从“被动仓库”变为“主动协作者”。

4.3 模型层需支持“Agent原生”能力

当前LLM仍以文本生成为核心目标,缺乏对工具调用、状态管理、多步推理的原生支持。未来模型需内置:

  • 实心圆 工具使用控制器
  • 实心圆 任务分解模块
  • 实心圆 自我验证机制

只有当模型“天生会用工具”,Agent架构才能真正简化。

5. 泡沫还是机遇?关键看基建进度

5.1 应用先行,基建滞后是危险信号

历史上,每一次技术浪潮都伴随“应用热”与“基建冷”的错配。互联网早期,无数“.com”公司倒闭,正是因为支付、物流、安全等基础设施未跟上。Agent若重蹈覆辙——大量创业公司涌向应用层,却无人深耕Infra与数据层——泡沫破裂只是时间问题。

5.2 真正的机会藏在“脏活累活”里

笔者认为,当前最被低估的领域并非炫酷的Agent应用,而是那些枯燥但关键的基建工作:

  • 实心圆 构建Agent专用的监控与调试工具
  • 实心圆 设计低成本、高可靠的记忆存储方案
  • 实心圆 制定跨平台工具调用标准

这些工作不性感,却是Agent规模化落地的基石。

5.3 行业需要理性共识

Anthropic员工所言极是:“Agent目前不是泡沫,但一旦人人追逐最显性的应用,没人做好与之匹配的基建,这就会成为泡沫。”行业需要建立一种共识:Agent的价值释放是系统工程,不能只靠模型一家独大。开发者、云厂商、数据库公司、芯片企业必须协同进化。

结语

Agent的愿景令人振奋——一个能自主思考、行动、学习的数字协作者。但通往这一愿景的路上,布满成本、生态与架构的荆棘。当前的热潮如同夏日正午的阳光,耀眼却易灼伤。真正推动Agent走向成熟的,不是展会上的干杯声,而是深夜实验室里对一行推理代码的优化,是对一个API语义的反复推敲,是对一GB内存带宽的极致压榨。技术史告诉我们,伟大的变革往往始于对“不可能”的冷静审视。Agent不是魔法,它是一场需要耐心、协作与工程智慧的长跑。当我们不再急于宣布“Agent时代已来”,而是沉下心解决那一个个具体的“为什么跑不动”“为什么太贵”“为什么出错”,真正的时代才会悄然降临。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐