从一篇文章聊起

Anthropic的论文building-effective-agents,是2024年10月发布的一篇解析Workflow和AI Agent关系的论文,详细解读可参考如何构建智能体

从这篇论文能看出,2024年Workflow仍是主流,AI Agent尚未普及,但这篇文章极具旗帜意义——它首次清晰梳理了Workflow与AI Agent的内在关联,为后续AI Agent的工程化落地奠定了Workflow设计的基础。文章对Workflow的范式做了详细论述,对AI Agent的介绍却语焉不详,仅简单提及AI Agent的架构本身是简洁的

AI Agent火起

Claude Code于2025年2月推出,同年10月网页版上线后,短短数月便快速爆发,随后还出现了Skill相关玩法,行业普遍认为,AI Agent的元年正式到来。

2024年的论文中已有AI Agent的概念,为何直到2025年底才迎来爆发?核心原因是此前存在工具调用准确率的关键性限制。

2025年下半年,OpenAI O3、Claude 4.5等标志性推理模型相继发布,这些基座模型的推理能力实现了质的提升,让工具调用准确率大幅提高。技术瓶颈突破后,AI Agent便迎来了全面爆发。

如今各类AI Agent开发手册层出不穷,可预见头部公司必将推出Agent SDK抢占市场,开发者无需再从0开始自研AI Agent。而要做好AI Agent开发,首先要理解其核心本质。

AI Agent的本质

聊到这里,我们不妨思考:AI Agent的本质是什么?它是一套完整的智能系统,核心链路可概括为大模型→上下文→应用,其中上下文是影响系统表现的核心环节。

我们用计算机系统做个类比:大模型是AI Agent的“CPU”,为整个系统提供核心推理动力;对应的,Workflow和AI Agent框架则相当于计算机的“操作系统”——操作系统的核心是统筹管理CPU、内存、外设等全资源,这类框架的核心则是统筹调度任务规划、工具调用、上下文管理、任务状态监控等Agent全环节。其中,上下文是框架所管理的“核心数据资源”,类似操作系统管理的内存数据;框架则是上下文的“统筹管理载体”,让上下文的价值得以有效发挥。

Claude Code的诸多设计思路,本质都是围绕上下文管理展开的。例如Skill的设计细节:先加载不超过200字符的Skill描述,再根据使用决策加载具体的Skill。这一设计的核心,就是通过轻量描述+按需加载的精细化上下文管理,既规避了上下文窗口的限制,又缓解了注意力有效性衰减的问题。

可以说,上下文的工程化管理能力,直接决定了AI Agent应用的实际表现。即便AI Agent框架能处理大部分通用的上下文问题,但每个应用都有自身的业务特点,唯有深入理解上下文的管理逻辑,才能构建出贴合场景的优秀AI Agent。

不可能三角

AI Agent的落地过程中,存在一个经典的不可能三角:

       准确性 (Accuracy)
           ▲
          /│\
         / │ \  AI Agent 不可能三角
        /  │  \  (同时优化三者)
       /   │   \
      /    │    \
     /     │     \
  延迟 ←───┴─────→ 成本
(Latency)       (Cost)
  • 准确性:把事做对、做好,输出结果贴合实际需求且无差错;
  • 延迟:完成一次任务的全链路耗时,从接收需求到输出有效结果的总时间;
  • 成本:完成任务的综合代价,主要包括算力、工具调用的资金成本,以及研发、运维的精力与资源投入。

这三者无法同时做到极致,优化其中一个或两个维度,必然要在剩余维度做出妥协:

  • 想把事做得又对又好(高准确性),要么增加资金与资源投入(高成本),要么接受更长的任务处理时间(高延迟);
  • 想又快又好地完成任务(低延迟+高准确性),就必须投入更多的算力、研发等资源(高成本);
  • 想又快又省钱地完成任务(低延迟+低成本),则难以保证结果质量,易出现差错(低准确性)。

为何会产生这个不可能三角?并非单一的大模型约束所致,而是AI Agent端到端全链路的多层核心约束叠加的结果。其中大模型的固有特性约束是底层核心,再叠加工程落地过程中算力、流程编排、任务执行等环节的配套约束,最终形成了三者的制衡关系。

基于此,我们提炼出当前阶段影响AI Agent从“可用”到“好用”的TOP3核心约束。之所以聚焦当前阶段,是因为工具调用准确率是AI Agent从“概念”到“可用”的关键突破因素,该问题解决后,上下文相关约束便成为AI Agent从“可用”到“好用”的核心矛盾。

约束 限制 解决方案
上下文窗口 2025年上半年主流模型的120K tokens硬限制,超量则无法处理 批量工具处理数据 + Top-K 摘要保留核心信息,减少上下文数据量
注意力有效性 上下文超50K tokens后,模型任务准确率显著下降 分层按需加载内容,压缩冗余信息,降低模型注意力负荷
长任务连续性 多步执行易偏离核心目标,任务连贯性大幅下降 记录每步任务节点状态,持续锚定总目标,避免执行漂移

这三个约束,是我们理解并深入AI Agent设计的核心着力点。以上下文窗口为例,如今模型能力已实现大幅进步,远超此前的120K tokens,不少模型支持200K tokens,1M tokens(1000K tokens)的模型也屡见不鲜。在实际任务执行中,每次工具调用仅新增数K tokens的上下文,足以支撑长时间的连续调用,多数任务已不会超出上下文窗口的硬限制。此时,上下文窗口的限制已非当前主要矛盾,而上下文窗口规模超出模型注意力有效阈值引发的注意力漂移,才是核心问题。这也是为何在一些长任务中,部分指令表述明确,大模型却无法精准响应执行的关键原因。

总结

AI Agent的元年已至,开发出贴合场景、表现优异的AI Agent是所有开发者的共同目标,但这并非仅依靠一款优秀的AI Agent框架就能实现。其核心在于真正理解AI Agent的本质,掌握上下文管理的工程化能力,唯有如此,才能让AI Agent的价值在实际场景中充分落地。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐