一文读懂上下文工程：AI如何化身“记忆大师”？

摘要：上下文工程是优化大语言模型（LLM）性能的关键技术，通过管理指令、知识和操作三大上下文类别，提升AI的任务执行能力。与提示工程聚焦单次输入优化不同，上下文工程构建动态信息网络，结合历史数据、用户特征等实现持续理解。其核心策略包括写入（存储临时/长期记忆）、选择（筛选相关信息）、压缩（精简内容）和隔离（防止干扰），从而高效利用有限的上下文窗口。随着AI应用复杂化，上下文工程将成为智能系统设计

高级绘画师PP

819人浏览 · 2025-09-17 11:45:03

高级绘画师PP · 2025-09-17 11:45:03 发布

随着大型语言模型（LLM）技术的飞速发展，我们与AI的交互模式正在经历深刻的变革。从最初的简单问答，到多轮对话，再到如今能够自主规划、执行复杂任务的AI 智能体（Agent），当我们惊叹于AI的强大能力时，一个常常被忽视但至关重要的概念正在悄然崛起，它就是上下文工程（Context Engineering）。

大模型在回答问题时，并不是凭空知道一切，而是根据你给它的提示（Prompt）和上下文信息来推理。就像一个学生考试时能不能答对题，很大程度取决于题目本身是否明确、有没有提供必要条件。如果上下文给得不完整或模糊，模型就可能答偏；但如果上下文设计得合理，模型就能发挥出最大效果。

正如知名AI专家Andrej Karpathy所言：“多数AI Agent的失败，并非模型能力的失败，而是上下文工程的失败。”本文将带你深入理解上下文工程的奥秘。

什么是上下文？

刚开始接触大模型时，大家都热衷于研究提示工程（Prompt Engineering），即怎么把问题问得更清楚，才能让AI给出更好的答案。但随着AI应用越来越复杂，人们发现光靠问得好远远不够。比如一个AI客服要想真正帮用户解决问题，不仅需要接收用户当前的提问，还得知道用户是谁、之前聊过什么、订单信息是什么……这些所有相关信息的总和，就是上下文。而设计、管理这些信息的技术，就是上下文工程。

上下文工程与提示工程的本质区别

提示工程和上下文工程常被混淆，但其定位和目标截然不同。我们可以通过以下维度来区分：

提示工程的核心是优化单次输入，让 AI 在特定任务中生成更优结果。例如，给大模型输入“写一篇成都旅游攻略”，效果不佳；优化为 “给 20-25 岁女生做一份成都 3 天 2夜的旅游攻略，人均预算约 3000 元，重点推荐小众咖啡馆和拍照打卡点”，输出质量显著提升。这是典型的提示工程，聚焦于一次对话的输入优化。

提示工程处理的是孤立的文本输入，其优化对象是当前提示词的措辞、结构、格式。即使是多轮对话中的提示优化，也局限于如何在本轮输入中更好地衔接上文，本质上仍是对单轮文本的调整。

在这里插入图片描述

上下文工程则追求构建 AI 的系统认知，让 AI 不仅理解当前请求，更能整合历史信息、用户特征、场景约束等多维度数据，形成持续的理解能力。例如，智能客服系统不仅能记住你 “昨天咨询过退货政策”，还能结合 “你是 VIP 用户”“购买商品未满 7 天” 等信息，直接给出 “退货免运费” 的解决方案，无需重复解释。这是上下文工程的价值，它让 AI 从单次应答升级为持续理解。

上下文工程需要处理动态变化的信息网络，包含三个层级：

即时信息：当前用户的输入内容（如“我想退这个商品”）；
历史信息：用户过去的交互记录（如“3 天前购买，未拆封”）；
外部信息：与场景相关的系统数据（如“该商品支持 7 天无理由退货”“用户是 VIP，免退货费”）。

这些信息并非静态存储，而是通过算法实时关联、更新、筛选，形成动态上下文网络。例如，当用户说“退货”时，系统会自动触发“查询订单状态→匹配退货政策→关联用户等级→计算运费”的链条，这远超提示工程的文本优化范畴。

总的来说，提示工程是上下文工程的子集，主要核心职能是优化指导性上下文。它侧重于单次交互的指令部分，是一种更细粒度的、面向具体问题的工程实践。上下文工程则是一个更宏观、更具系统性的概念。它的目标是确保在任何给定时刻，LLM都能获得最相关、最有效的信息，从而实现最佳的推理和生成效果。你可以将上下文工程理解为一个总指挥，它协调和优化各种上下文来源，以达到整体最优的性能和效率。

上下文的三大支柱

要理解上下文工程，我们首先要明确“上下文”的定义。我们往往会将上下文简单理解成历史聊天记录。但它其实是一个更为广阔、多维度的概念，涵盖了提供给LLM的、用于完成下一步推理或生成任务的全部信息集合。

如果将LLM或更广义的Agentic System视为一种新型操作系统，LLM本身就像CPU，而上下文窗口（Context Window）则如同RAM（内存）。上下文工程就是这个操作系统的“内存管理器”。它的职责并非简单地将数据塞满RAM，而是通过复杂的调度算法，决定哪些数据应该被加载、哪些应该被换出、哪些应该被优先处理，从而保证整个系统的流畅运行和最终结果的准确性。这正是上下文工程的精髓所在。

我们可以将上下文划分为以下三大核心类别：指令上下文、知识上下文与操作上下文。

指令上下文：告诉AI怎么做事

指令上下文的核心功能是指导模型“做什么”以及“如何做”。它为模型的行为设定了框架、目标和规则。例如，

系统提示（System Prompt）：定义了模型的角色和行为准则；

少样本示例（Few-shot Examples）：通过提供少量高质量的输入-输出对，帮助模型理解任务模式；

结构化输出模式（Structured Output Schema）：强制模型以特定格式（如JSON、XML）输出结果。

提示工程主要就是优化这类指导性上下文。

知识上下文：告诉AI用什么知识

知识性上下文的核心功能是告诉模型“需要知道什么知识”。它为模型提供解决问题所必需的事实、数据和知识。这包括：

检索增强生成（RAG）：RAG 是提供知识上下文的最常用技术。它可以从外部知识库（例如公司文档集合）检索相关信息片段，并将其添加到提示中。这使模型以具体、可验证的事实为基础，显著减少幻觉，并使其能够回答最新或专有信息的问题。虽然 RAG 通常作为一种单独架构被讨论，但从更广泛的上下文工程视角来看，RAG 是管理知识上下文的强大模式。

实时 API 调用：对于高度动态的信息（例如天气预报），可以通过从外部 API 获取的实时数据来增强上下文。系统识别何时需要这些数据，并进行适当的 API 调用，将结果插入上下文。

数据库集成：对于需要对结构化数据进行推理的应用程序，系统可以查询数据库并将结果包含在上下文中。例如，客服机器人可以查询系统以获取用户的购买历史记录，然后再生成响应。

操作上下文：告诉AI当前状态

操作上下文的核心功能是告诉模型“能做什么”以及“做了之后的结果”。它赋予模型与外部世界交互的能力。这包括：

短期记忆（对话历史）：在上下文中包含最近的对话轮次，可以让模型保持对话的连贯性，理解后续问题，并避免重复解释。

长期记忆（总结）：由于上下文窗口有限，永久存储整个对话历史记录并不可行。长期记忆就是定期将过去的互动压缩成简洁、保留事实的摘要。比如聊了100轮后，用一段文字概括核心内容。

暂存器和工具输出存储器：记录之前调用工具的结果，让模型能够基于先前的结果进行构建，而不是重复操作或丢失中间步骤。比如算过一次汇率后，不用重复计算。

模型上下文协议（MCP）：如今，大多数应用程序都需要手动将每次模型调用的历史记录、摘要和工具输出拼接在一起。这种方式既脆弱，又跨平台不一致。MCP通过定义一种标准化的方式来表示操作上下文，能把这些状态信息标准化，让不同AI系统之间能共享上下文。例如，对话状态、记忆摘要和工具使用情况可以以可移植的结构化格式共享；切换LLM不需要从头开始重建上下文管道等。

上下文的四大策略

LLM上下文窗口有限，一次只能看一定长度的文本（比如几千到几十万Token），超出就会“遗忘”。有效的上下文工程需要复杂的策略来管理这种有限的资源。这些策略可以分为四大类：写入（Write）、选择（Select）、压缩（Compress）和隔离（Isolate）。

写入上下文

写入操作的核心是把智能体执行任务时需要的信息（计划、记忆、中间结果等）存储在上下文窗口之外，避免占用有限的窗口空间，同时确保后续可调用。具体分为两种方式：

草稿本（Scratchpads）：就像做题时在草稿纸上演算，AI 处理复杂任务时也需要临时记录空间。智能体制定任务计划后，将计划存入草稿本（而非上下文窗口），防止窗口 Token 超限被截断。这是一种轻量级的、非持久化的写入，用于简化当前任务的复杂性。

记忆（Memories）：用于跨会话/长期的信息持久化，类似人类的长期记忆，帮助智能体复用历史经验，比如用户偏好、重要事实或历史记录，结合向量存储、知识图谱实现长期存储。

选择上下文

从外部存储（草稿本、记忆库、工具库等）中筛选出与当前任务最相关的信息，精准传入上下文窗口，避免无关信息占用空间，这就是选择的作用。

确定性选取：就像我们规定吃饭前必须先洗手，AI 也可以遵循预设规则加载固定信息。例如，Claude Code 会固定加载CLAUDE.md文件，Cursor和Windsurf使用规则文件。这是一种简单高效的先验知识注入。

模型驱动选取：当信息太多（比如有成百上千份文档），预设规则不够用时，模型可以利用自身能力判断哪些信息有用。

检索式选取：这是目前最常用的方式，核心是通过相似度检索匹配信息，从记忆、草稿纸或外部知识库中选取信息。

压缩上下文

压缩的目的是在不丢失关键信息的前提下，用更少的Token存储内容，让有限的空间容纳更多有效信息。

上下文摘要：当上下文快满时，AI 会自动总结已有信息，保留它认为最重要的部分。比如在处理长对话时，系统会把 10 轮聊天浓缩成一句 “用户喜欢拍照打卡，预算有限”，既节省空间又保留关键信息。

上下文修剪：摘要通常使用LLM来提炼最相关的上下文片段，而修剪通常是去除不相关的信息，仅保留必要的结果，例如从消息列表中删除较旧的消息。

隔离上下文

不同类型的上下文可能会相互干扰从而导致错误，这有时被称为上下文中毒、干扰或混乱。

多智能体系统：隔离上下文最常用的方法之一是将复杂任务分解，并将子任务分配给不同的智能体，每个智能体都有各自独立的上下文窗口。这种关注点分离的方式比单个智能体试图同时管理所有上下文类型可以带来更可靠的性能。

上下文与环境隔离：指的是把模型的对话/推理上下文和运行环境分开管理，防止相互干扰。通俗地说，就像把想法记录在笔记本上，而把实验操作放在实验室里，笔记本里写的内容不会污染实验室，实验室里的实验结果也不会直接改写笔记。技术上，这意味着模型的上下文只保存逻辑推理、任务状态等信息，而环境隔离层负责运行代码、调用工具或外部 API，两者之间互不干扰，从而保证安全性、稳定性和可复用性。

小结

上下文工程的出现标志着大模型应用已经从能回答问题走向能系统地思考和协作。未来，无论是在多智能体协作，还是在人机交互的各种场景里，上下文工程都将是一种必不可少的基础能力。理解它，就像理解操作系统之于计算机一样，是迈向 AI 新时代的必修课。

最后

选择AI大模型就是选择未来！最近两年，大家都可以看到AI的发展有多快，我国超10亿参数的大模型，在短短一年之内，已经超过了100个，现在还在不断的发掘中，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，整体AI领域2025年预计缺口1000万人，人才需求急为紧迫！

由于文章篇幅有限，在这里我就不一一向大家展示了，学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。

【2025最新】AI大模型全套学习籽料（可白嫖）：LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等，从入门到进阶再到精通，超全面存下吧！

获取方式：有需要的小伙伴，可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
包括：AI大模型学习路线、LLM面试宝典、0基础教学视频、大模型PDF书籍/笔记、大模型实战案例合集、AI产品经理合集等等

在这里插入图片描述
大模型学习之路，道阻且长，但只要你坚持下去，一定会有收获。本学习路线图为你提供了学习大模型的全面指南，从入门到进阶，涵盖理论到应用。
L1阶段：启航篇|大语言模型的基础认知与核心原理

L2阶段：攻坚篇|高频场景:RAG认知与项目实践

L3阶段：跃迀篇|Agent智能体架构设计

L4阶段：精进篇|模型微调与私有化部署

L5阶段：专题篇|特训集：A2A与MCP综合应用追踪行业热点（全新升级板块）

在这里插入图片描述

AI大模型全套学习资料【获取方式】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

数字健康医疗流程自动化的核心：提示工程架构师如何用提示让AI更智能？

想象一下，在一家大型医院里，每天都有成千上万的患者前来就诊。从患者挂号、医生诊断、检验检查到最后的缴费结算，每一个环节都涉及到大量的信息处理和流程操作。传统的人工处理方式不仅效率低下，还容易出现错误。比如，可能会因为手写病历字迹不清，导致后续医护人员读取信息错误；又或者在安排检验检查顺序时，没有考虑到各项检查的最佳时间间隔，影响诊断结果的准确性。而如今，随着人工智能（AI）技术的飞速发展，数字健康