AI Coding的未来：从上下文管理到Subagents协作架构

AI编程正从单一大模型转向多Agent协作模式，其核心在于精准的上下文管理。研究表明，LLM仅能有效利用10-20%的上下文窗口，且Transformer架构的二次方复杂度使海量上下文成为负担。新型架构采用"双层记忆"设计：各Agent保持极简上下文，同时通过共享状态文件实现长期记忆穿透。这种协作模式能克服单Agent限制，提高效率并增强可维护性，代表AI Coding在Tra

雷哥AI工程化

1018人浏览 · 2026-02-03 09:48:49

雷哥AI工程化 · 2026-02-03 09:48:49 发布

在这里插入图片描述

在Transformer架构的基座之上，AI编程正在从"单一大模型"向"多Agent协作"演进。这个方向的核心，是对上下文的精准管理。

最近在学习过程中，我逐渐形成了一个深刻的认知：所有模型类的东西，最主要的都是上下文管理。经过长时间的实践，你会发现最珍贵的不是模型本身，而是模型的上下文内容。

这有一个前提——模型的理解能力足够强。当我们确保模型具备强大的理解能力之后，关键问题就变成了：我们不能给它塞满上下文，越精准、越少量的上下文，模型的表现能力就越强[1]。

为什么"精准"比"海量"更重要？

在传统观念里，我们倾向于认为给模型更多的上下文会带来更好的结果。但实践和研究表明，这个直觉可能是错的。

研究数据显示，LLM实际上只能有效使用其 advertised 上下文窗口的10-20%。例如，一个号称支持128K上下文窗口的模型，实际可能只能有效处理约12-25K tokens[2]。这种现象被称为"Context Rot"（上下文衰减）——随着输入token数量的增加，模型性能反而会下降[3]。

更重要的是，Transformer架构的自注意力机制具有O(n²)的二次方复杂度，其中n是序列长度[4]。这意味着：

上下文翻倍，计算需求增加约4倍
在32K tokens时，二次方复杂度已经变得 prohibitive（成本过高）
CodeLlama-7B模型的参数需要14GB存储，但KV Cache还需要额外的16GB[5]

这不仅仅是技术限制，更是一个基本的权衡：当我们向模型塞入更多上下文时，我们实际上在稀释相关信息的重要性，同时增加计算负担。

这就是为什么"精准上下文"成为比"海量上下文"更优的策略。Context Engineering领域已经形成了明确的原则：“Always retrieve and provide only relevant info, quality over quantity”[6]

Subagents：极简上下文，共享记忆

基于对上下文管理的深刻理解，我开始思考：如果不同的Agent都保持极简的上下文，但它们能够共享同一个状态追踪文件，会怎样？

这个想法的核心是：该文件能记录不同上下文的关键执行过程，同步不同Agent之间的上下文内容，从而实现长期记忆的穿透。

这并非空想。在Multi-Agent系统研究中，“Shared Memory”（共享记忆）正成为关键主题。Medium上的一篇文章直指要害：“Shared Memory: The Missing Brain of Multi-Agent AI”——指出那些在孤立状态下表现优异的AI Agent，在协作时往往变得混乱，正是因为缺乏共享记忆机制[7]。

AWS的机器学习博客介绍了Multi-Agent协作模式，其中"shared memory management"（共享记忆管理）是核心能力之一。在他们的架构中，“agents can focus on specialized tasks while the swarm framework handles orchestration, shared memory management, and fault tolerance”[8]——Agent专注于专门任务，而框架负责编排、共享记忆管理和容错。

Anthropic的工程团队在2025年6月分享了他们构建Multi-Agent研究系统的经验，描述了这样一个架构：“user queries flow through a lead agent that creates specialized subagents to search for different information”[9]——用户查询通过一个主导Agent，该Agent创建专门化的subagents来搜索不同信息。

这正是我所构想的：不同的subagents去做不同的事情，并通过一个中间过程文件将他们串联起来。

共同记忆+专门记忆：双层架构

在这个架构中，关键的设计原则是：他们拥有共同的记忆，同时每一块Agent又有自己的记忆，在共同记忆的基础上，各自从事专门且擅长的事务。

这种"双层记忆"架构在最新的研究中得到了验证：

arXiv上的一篇论文"Multi-User Memory Sharing in LLM Agents with Dynamic Access Controls"介绍了"Collaborative Memory"框架，专门为多用户、多Agent环境设计，具有非对称的、随时间演化的访问控制[10]。

Strands Agents的文档描述了"shared context/working memory patterns"（共享上下文/工作记忆模式），其中"a single shared dict object is passed to all agents who can read and modify it"[11]——一个单一的共享字典对象传递给所有Agent，它们可以读取和修改它。

Mem0和LlamaIndex的协作案例展示了"both agents share the same memory context for seamless collaboration"[12]——两个Agent共享同一个记忆上下文以实现无缝协作。

这是AI Coding的Transformer架构未来

我认为，基于Transformer架构的AI Coding的未来趋势，就是这种Multi-Agent协作架构。

为什么这么说？让我们回到Transformer架构的本质。虽然研究者们正在探索"What Comes After Transformers?"[13]，但Andrej Karpathy等专家的讨论表明，Transformers在可预见的未来仍将是主导架构[14]。

在这个前提下，问题的关键就不是"如何替代Transformer"，而是"如何在Transformer的限制下发挥最大效用"。而答案，就是通过多个专门化的Subagents协作，每个Agent保持极简上下文，通过共享记忆文件实现信息同步。

这个方向的优势是明显的：

克服单Agent上下文限制：每个Agent只需要处理与其专门任务相关的精准上下文
实现长期记忆：通过状态追踪文件，信息可以在不同Agent之间持久化和传递
提高整体效率：并行执行专门任务，而不是让一个笨重的Agent处理所有事情
增强可维护性：每个Agent的职责清晰，更容易调试和优化

实践中的State Tracking

在具体实现上，“state tracking”（状态追踪）和"long-term memory"（长期记忆）成为关键技术。

YouTube上有多门课程专门讲解"How to build your own long-term Agentic Memory System"[15]和"Building a State-Aware AI Agent – Long-Term Memory"[16]。这些教程展示了如何使用Vector Database（如QDrant）、LangGraph等技术来实现持久化记忆[17]。

Reddit社区也在讨论"Agentainer"这类工具，用于"keeping agents stateful and long-running"（保持Agent有状态且长期运行），并实现"auto-recovery when agents crash"[18]。

结语：从"单一大模型"到"协作Agent生态"

经过长时间的实践和思考，我确信：AI Coding的未来不在于打造一个超级强大的单体Agent，而在于构建一个由多个专门化Subagents组成的协作生态。

在这个生态中：

每个Subagent拥有极简但精准的上下文
所有Subagent通过共享状态文件实现信息同步
共同记忆作为全局知识库，专门记忆作为本地工作空间
整个系统在Transformer架构的限制下实现最优性能

这不是对Transformer的否定，而是对其潜力的充分挖掘。正如一位研究者所说：“Context Engineering is the future of AI Agents”[19]——而我认为，基于精准上下文的Multi-Agent协作，则是Context Engineering在AI Coding领域的终极体现。

参考文献

[1] P. Pandey, “Prompt Engineering vs. Context Engineering: The True Game Changer for LLM Applications,” Medium, 2024.

[2] Rewire.it, “Why Your LLM Only Uses 10-20% of Its Context Window (And How TITANs Fixes It),” 2025.

[3] Chroma Research, “Context Rot: How Increasing Input Tokens Impacts LLM Performance,” research.trychroma.com.

[4] Weights & Biases, “The Problem with Quadratic Attention in Transformer Architectures,” wandb.ai.

[5] S. Raschka, “Understanding and Coding the KV Cache in LLMs from Scratch,” magazine.sebastianraschka.com.

[6] Shaw Talebi, “Context Engineering Explained,” Medium, 2024.

[7] A. Sharma, “Shared Memory: The Missing Brain of Multi-Agent AI,” Medium, 2025.

[8] AWS Machine Learning Blog, “Multi-Agent Collaboration Patterns with Strands Agents and Amazon Nova,” Nov 11, 2025.

[9] Anthropic Engineering, “How We Built Our Multi-Agent Research System,” June 13, 2025.

[10] arXiv, “Multi-User Memory Sharing in LLM Agents with Dynamic Access Controls,” May 23, 2025.

[11] Strands Agents Documentation, “Multi-Agent Patterns,” strandsagents.com.

[12] Mem0 Documentation, “Multi-Agent Collaboration with Mem0 and LlamaIndex,” docs.mem0.ai.

[13] arXiv, “What Comes After Transformers? – A Selective Survey,” Aug 1, 2024.

[14] A. Karpathy, “Will transformers drive AI in 10 years?” YouTube, 2024.

[15] YouTube, “How to build your own long-term Agentic Memory System,” 2025.

[16] YouTube, “Building a State-Aware AI Agent – Long-Term Memory,” 2024.

[17] YouTube, “How to Build a Multi-Agent System With Long-Term Memory,” 2025.

[18] Reddit, “A demo of long running LLM agent solution with state,” r/LocalLLaMA, 2025.

[19] YouTube, “Context Engineering is the future of AI Agents - here’s why,” 2024.

作者注：本文基于我对AI Coding实践的深度思考和对最新研究文献的综合分析。视频学习资源：https://www.youtube.com/watch?v=-GyX21BL1Nw

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

2048 AI社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性