在这里插入图片描述

在Transformer架构的基座之上,AI编程正在从"单一大模型"向"多Agent协作"演进。这个方向的核心,是对上下文的精准管理。

最近在学习过程中,我逐渐形成了一个深刻的认知:所有模型类的东西,最主要的都是上下文管理。经过长时间的实践,你会发现最珍贵的不是模型本身,而是模型的上下文内容。

这有一个前提——模型的理解能力足够强。当我们确保模型具备强大的理解能力之后,关键问题就变成了:我们不能给它塞满上下文,越精准、越少量的上下文,模型的表现能力就越强[1]。

为什么"精准"比"海量"更重要?

在传统观念里,我们倾向于认为给模型更多的上下文会带来更好的结果。但实践和研究表明,这个直觉可能是错的。

研究数据显示,LLM实际上只能有效使用其 advertised 上下文窗口的10-20%。例如,一个号称支持128K上下文窗口的模型,实际可能只能有效处理约12-25K tokens[2]。这种现象被称为"Context Rot"(上下文衰减)——随着输入token数量的增加,模型性能反而会下降[3]。

更重要的是,Transformer架构的自注意力机制具有O(n²)的二次方复杂度,其中n是序列长度[4]。这意味着:

  • 上下文翻倍,计算需求增加约4倍
  • 在32K tokens时,二次方复杂度已经变得 prohibitive(成本过高)
  • CodeLlama-7B模型的参数需要14GB存储,但KV Cache还需要额外的16GB[5]

这不仅仅是技术限制,更是一个基本的权衡:当我们向模型塞入更多上下文时,我们实际上在稀释相关信息的重要性,同时增加计算负担

这就是为什么"精准上下文"成为比"海量上下文"更优的策略。Context Engineering领域已经形成了明确的原则:“Always retrieve and provide only relevant info, quality over quantity”[6]

Subagents:极简上下文,共享记忆

基于对上下文管理的深刻理解,我开始思考:如果不同的Agent都保持极简的上下文,但它们能够共享同一个状态追踪文件,会怎样?

这个想法的核心是:该文件能记录不同上下文的关键执行过程,同步不同Agent之间的上下文内容,从而实现长期记忆的穿透

这并非空想。在Multi-Agent系统研究中,“Shared Memory”(共享记忆)正成为关键主题。Medium上的一篇文章直指要害:“Shared Memory: The Missing Brain of Multi-Agent AI”——指出那些在孤立状态下表现优异的AI Agent,在协作时往往变得混乱,正是因为缺乏共享记忆机制[7]。

AWS的机器学习博客介绍了Multi-Agent协作模式,其中"shared memory management"(共享记忆管理)是核心能力之一。在他们的架构中,“agents can focus on specialized tasks while the swarm framework handles orchestration, shared memory management, and fault tolerance”[8]——Agent专注于专门任务,而框架负责编排、共享记忆管理和容错。

Anthropic的工程团队在2025年6月分享了他们构建Multi-Agent研究系统的经验,描述了这样一个架构:“user queries flow through a lead agent that creates specialized subagents to search for different information”[9]——用户查询通过一个主导Agent,该Agent创建专门化的subagents来搜索不同信息。

这正是我所构想的:不同的subagents去做不同的事情,并通过一个中间过程文件将他们串联起来

共同记忆+专门记忆:双层架构

在这个架构中,关键的设计原则是:他们拥有共同的记忆,同时每一块Agent又有自己的记忆,在共同记忆的基础上,各自从事专门且擅长的事务

这种"双层记忆"架构在最新的研究中得到了验证:

arXiv上的一篇论文"Multi-User Memory Sharing in LLM Agents with Dynamic Access Controls"介绍了"Collaborative Memory"框架,专门为多用户、多Agent环境设计,具有非对称的、随时间演化的访问控制[10]。

Strands Agents的文档描述了"shared context/working memory patterns"(共享上下文/工作记忆模式),其中"a single shared dict object is passed to all agents who can read and modify it"[11]——一个单一的共享字典对象传递给所有Agent,它们可以读取和修改它。

Mem0和LlamaIndex的协作案例展示了"both agents share the same memory context for seamless collaboration"[12]——两个Agent共享同一个记忆上下文以实现无缝协作。

这是AI Coding的Transformer架构未来

我认为,基于Transformer架构的AI Coding的未来趋势,就是这种Multi-Agent协作架构

为什么这么说?让我们回到Transformer架构的本质。虽然研究者们正在探索"What Comes After Transformers?"[13],但Andrej Karpathy等专家的讨论表明,Transformers在可预见的未来仍将是主导架构[14]。

在这个前提下,问题的关键就不是"如何替代Transformer",而是"如何在Transformer的限制下发挥最大效用"。而答案,就是通过多个专门化的Subagents协作,每个Agent保持极简上下文,通过共享记忆文件实现信息同步

这个方向的优势是明显的:

  1. 克服单Agent上下文限制:每个Agent只需要处理与其专门任务相关的精准上下文
  2. 实现长期记忆:通过状态追踪文件,信息可以在不同Agent之间持久化和传递
  3. 提高整体效率:并行执行专门任务,而不是让一个笨重的Agent处理所有事情
  4. 增强可维护性:每个Agent的职责清晰,更容易调试和优化

实践中的State Tracking

在具体实现上,“state tracking”(状态追踪)和"long-term memory"(长期记忆)成为关键技术。

YouTube上有多门课程专门讲解"How to build your own long-term Agentic Memory System"[15]和"Building a State-Aware AI Agent – Long-Term Memory"[16]。这些教程展示了如何使用Vector Database(如QDrant)、LangGraph等技术来实现持久化记忆[17]。

Reddit社区也在讨论"Agentainer"这类工具,用于"keeping agents stateful and long-running"(保持Agent有状态且长期运行),并实现"auto-recovery when agents crash"[18]。

结语:从"单一大模型"到"协作Agent生态"

经过长时间的实践和思考,我确信:AI Coding的未来不在于打造一个超级强大的单体Agent,而在于构建一个由多个专门化Subagents组成的协作生态

在这个生态中:

  • 每个Subagent拥有极简但精准的上下文
  • 所有Subagent通过共享状态文件实现信息同步
  • 共同记忆作为全局知识库,专门记忆作为本地工作空间
  • 整个系统在Transformer架构的限制下实现最优性能

这不是对Transformer的否定,而是对其潜力的充分挖掘。正如一位研究者所说:“Context Engineering is the future of AI Agents”[19]——而我认为,基于精准上下文的Multi-Agent协作,则是Context Engineering在AI Coding领域的终极体现。


参考文献

[1] P. Pandey, “Prompt Engineering vs. Context Engineering: The True Game Changer for LLM Applications,” Medium, 2024.

[2] Rewire.it, “Why Your LLM Only Uses 10-20% of Its Context Window (And How TITANs Fixes It),” 2025.

[3] Chroma Research, “Context Rot: How Increasing Input Tokens Impacts LLM Performance,” research.trychroma.com.

[4] Weights & Biases, “The Problem with Quadratic Attention in Transformer Architectures,” wandb.ai.

[5] S. Raschka, “Understanding and Coding the KV Cache in LLMs from Scratch,” magazine.sebastianraschka.com.

[6] Shaw Talebi, “Context Engineering Explained,” Medium, 2024.

[7] A. Sharma, “Shared Memory: The Missing Brain of Multi-Agent AI,” Medium, 2025.

[8] AWS Machine Learning Blog, “Multi-Agent Collaboration Patterns with Strands Agents and Amazon Nova,” Nov 11, 2025.

[9] Anthropic Engineering, “How We Built Our Multi-Agent Research System,” June 13, 2025.

[10] arXiv, “Multi-User Memory Sharing in LLM Agents with Dynamic Access Controls,” May 23, 2025.

[11] Strands Agents Documentation, “Multi-Agent Patterns,” strandsagents.com.

[12] Mem0 Documentation, “Multi-Agent Collaboration with Mem0 and LlamaIndex,” docs.mem0.ai.

[13] arXiv, “What Comes After Transformers? – A Selective Survey,” Aug 1, 2024.

[14] A. Karpathy, “Will transformers drive AI in 10 years?” YouTube, 2024.

[15] YouTube, “How to build your own long-term Agentic Memory System,” 2025.

[16] YouTube, “Building a State-Aware AI Agent – Long-Term Memory,” 2024.

[17] YouTube, “How to Build a Multi-Agent System With Long-Term Memory,” 2025.

[18] Reddit, “A demo of long running LLM agent solution with state,” r/LocalLLaMA, 2025.

[19] YouTube, “Context Engineering is the future of AI Agents - here’s why,” 2024.


作者注:本文基于我对AI Coding实践的深度思考和对最新研究文献的综合分析。视频学习资源:https://www.youtube.com/watch?v=-GyX21BL1Nw

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐