Agent上下文工程完全指南

本文探讨如何在有限上下文窗口中高效管理信息。核心内容包括：1) 精准设计System Prompt、工具定义和状态注入；2) 采用滑动窗口、渐进摘要等策略优化窗口管理；3) 实现四种记忆形态（上下文/外部/参数/工作区）的协同；4) 多智能体协作时的上下文传递机制；5) 通过Token用量、信息命中率等指标评估优化。文章提出三条设计原则：即时注入、结构化压缩和可观测性，强调需在完整性/精简性、实时

司九Nineteen

15人浏览 · 2026-05-25 11:29:16

司九Nineteen · 2026-05-25 11:29:16 发布

Agent 上下文工程完全指南

上下文工程到底应该怎么做，这篇文章带大家一起探究。

核心问题只有一个：在有限的 context window 内，放置恰好足够的信息。

在这里插入图片描述

一、写什么进上下文

内容层——决定"放什么进去"。

System Prompt 设计
不只是角色描述，而是 agent 的"操作系统"。包含身份、行为规范、输出格式、边界条件、异常处理逻辑。写得越精准，模型浪费在歧义消解上的推理就越少。

工具定义
工具 schema 的字段名、描述文字、参数类型，直接影响模型选择和调用工具的准确率。描述模糊的工具会导致错误调用或冗余调用。

状态注入
把当前任务进度（已完成哪些步骤、当前卡在哪里、还剩什么目标）以结构化方式写入。常见格式是 JSON 状态块或 Markdown checklist。

按需注入
检索片段（RAG 结果）、Few-shot 示例、约束规则——需要时才注入，不预装。这就是 just-in-time 原则的精髓。

二、窗口管理

截断策略

滑动窗口：丢弃最早的消息
保留头尾：首轮 system prompt + 近期消息，适合长任务
重要性打分：选择性保留关键轮次

压缩策略

渐进摘要（Progressive Summarization）：每轮末尾把历史对话压成摘要，下一轮只带摘要
关键帧提取：只保留"决策节点"和"状态变更点"，丢弃过程性闲聊

分层缓存

Prompt Cache：把不变的 system prompt 缓存，避免每轮重复计费
KV Cache：推理层减少重复计算

Token 预算管理
规划阶段需要更多推理空间，执行阶段需要更多工具调用空间，按任务类型动态分配，不能一刀切。

三、记忆持久化

Agent 的"记忆"有四种形态：

类型	机制	适用场景
In-context 记忆	直接放在当前窗口	短任务、即时信息
外部记忆	向量库 / KV / SQL 检索回填	长期知识、跨会话
参数记忆	微调固化到模型权重	领域专业知识
工作区记忆	文件 / 代码 / 笔记本	复杂任务的中间产物