随着大型语言模型(LLM)发展,AI 交互从简单问答升级到智能体(Agent)执行复杂任务,而上下文工程是这一过程中易被忽视却关键的概念。

LLM 回答问题并非 “全知”,而是依赖提示(Prompt)与上下文信息推理,如同学生答题需明确题目与必要条件 —— 上下文不完整会导致答偏,设计合理则能让模型充分发挥能力。

正如 AI 专家 Andrej Karpathy 所说:“多数 AI Agent 的失败,并非模型能力的失败,而是上下文工程的失败。”

什么是上下文?

刚开始接触大模型时,大家都热衷于研究提示工程(Prompt Engineering),即怎么把问题问得更清楚,才能让AI给出更好的答案。但随着AI应用越来越复杂,人们发现光靠问得好远远不够。比如一个AI客服要想真正帮用户解决问题,不仅需要接收用户当前的提问,还得知道用户是谁、之前聊过什么、订单信息是什么……这些所有相关信息的总和,就是上下文。而设计、管理这些信息的技术,就是上下文工程。

图片
上下文工程与提示工程的本质区别

提示工程和上下文工程常被混淆,但其定位和目标截然不同。我们可以通过以下维度来区分:

提示工程的核心是优化单次输入,让 AI 在特定任务中生成更优结果。例如,给大模型输入“写一篇成都旅游攻略”,效果不佳;优化为 “给 20-25 岁女生做一份成都 3 天 2夜的旅游攻略,人均预算约 3000 元,重点推荐小众咖啡馆和拍照打卡点”,输出质量显著提升。这是典型的提示工程,聚焦于一次对话的输入优化。

提示工程处理的是孤立的文本输入,其优化对象是当前提示词的措辞、结构、格式。即使是多轮对话中的提示优化,也局限于如何在本轮输入中更好地衔接上文,本质上仍是对单轮文本的调整。

上下文工程则追求构建 AI 的系统认知,让 AI 不仅理解当前请求,更能整合历史信息、用户特征、场景约束等多维度数据,形成持续的理解能力。例如,智能客服系统不仅能记住你 “昨天咨询过退货政策”,还能结合 “你是 VIP 用户”“购买商品未满 7 天” 等信息,直接给出 “退货免运费” 的解决方案,无需重复解释。这是上下文工程的价值,它让 AI 从单次应答升级为持续理解。

上下文工程需要处理动态变化的信息网络,包含三个层级:

即时信息:当前用户的输入内容(如“我想退这个商品”);

历史信息:用户过去的交互记录(如“3 天前购买,未拆封”);

外部信息:与场景相关的系统数据(如“该商品支持 7 天无理由退货”“用户是 VIP,免退货费”)。

这些信息并非静态存储,而是通过算法实时关联、更新、筛选,形成动态上下文网络。例如,当用户说“退货”时,系统会自动触发“查询订单状态→匹配退货政策→关联用户等级→计算运费”的链条,这远超提示工程的文本优化范畴。

总的来说,提示工程是上下文工程的子集,主要核心职能是优化指导性上下文。它侧重于单次交互的指令部分,是一种更细粒度的、面向具体问题的工程实践。上下文工程则是一个更宏观、更具系统性的概念。它的目标是确保在任何给定时刻,LLM都能获得最相关、最有效的信息,从而实现最佳的推理和生成效果。你可以将上下文工程理解为一个总指挥,它协调和优化各种上下文来源,以达到整体最优的性能和效率。

上下文的三大支柱

要理解上下文工程,我们首先要明确“上下文”的定义。我们往往会将上下文简单理解成历史聊天记录。但它其实是一个更为广阔、多维度的概念,涵盖了提供给LLM的、用于完成下一步推理或生成任务的全部信息集合。

如果将LLM或更广义的Agentic System视为一种新型操作系统,LLM本身就像CPU,而上下文窗口(Context Window)则如同RAM(内存)。上下文工程就是这个操作系统的“内存管理器”。它的职责并非简单地将数据塞满RAM,而是通过复杂的调度算法,决定哪些数据应该被加载、哪些应该被换出、哪些应该被优先处理,从而保证整个系统的流畅运行和最终结果的准确性。这正是上下文工程的精髓所在。

图片
我们可以将上下文划分为以下三大核心类别:指令上下文、知识上下文与操作上下文。

图片

指令上下文:告诉AI怎么做事

指令上下文的核心功能是指导模型“做什么”以及“如何做”。它为模型的行为设定了框架、目标和规则。例如,

系统提示(System Prompt):定义了模型的角色和行为准则;

少样本示例(Few-shot Examples):通过提供少量高质量的输入-输出对,帮助模型理解任务模式;

结构化输出模式(Structured Output Schema):强制模型以特定格式(如JSON、XML)输出结果。

提示工程主要就是优化这类指导性上下文。

知识上下文:告诉AI用什么知识

知识性上下文的核心功能是告诉模型“需要知道什么知识”。它为模型提供解决问题所必需的事实、数据和知识。这包括:

检索增强生成(RAG):RAG 是提供知识上下文的最常用技术。它可以从外部知识库(例如公司文档集合)检索相关信息片段,并将其添加到提示中。这使模型以具体、可验证的事实为基础,显著减少幻觉,并使其能够回答最新或专有信息的问题。虽然 RAG 通常作为一种单独架构被讨论,但从更广泛的上下文工程视角来看,RAG 是管理知识上下文的强大模式。

实时 API 调用:对于高度动态的信息(例如天气预报),可以通过从外部 API 获取的实时数据来增强上下文。系统识别何时需要这些数据,并进行适当的 API 调用,将结果插入上下文。

数据库集成:对于需要对结构化数据进行推理的应用程序,系统可以查询数据库并将结果包含在上下文中。例如,客服机器人可以查询系统以获取用户的购买历史记录,然后再生成响应。

操作上下文:告诉AI当前状态

操作上下文的核心功能是告诉模型“能做什么”以及“做了之后的结果”。它赋予模型与外部世界交互的能力。这包括:

短期记忆(对话历史):在上下文中包含最近的对话轮次,可以让模型保持对话的连贯性,理解后续问题,并避免重复解释。

长期记忆(总结):由于上下文窗口有限,永久存储整个对话历史记录并不可行。长期记忆就是定期将过去的互动压缩成简洁、保留事实的摘要。比如聊了100轮后,用一段文字概括核心内容。

暂存器和工具输出存储器:记录之前调用工具的结果,让模型能够基于先前的结果进行构建,而不是重复操作或丢失中间步骤。比如算过一次汇率后,不用重复计算。

模型上下文协议(MCP):如今,大多数应用程序都需要手动将每次模型调用的历史记录、摘要和工具输出拼接在一起。这种方式既脆弱,又跨平台不一致。MCP通过定义一种标准化的方式来表示操作上下文,能把这些状态信息标准化,让不同AI系统之间能共享上下文。例如,对话状态、记忆摘要和工具使用情况可以以可移植的结构化格式共享;切换LLM不需要从头开始重建上下文管道等。

上下文的四大策略

LLM上下文窗口有限,一次只能看一定长度的文本(比如几千到几十万Token),超出就会“遗忘”。有效的上下文工程需要复杂的策略来管理这种有限的资源。这些策略可以分为四大类:写入(Write)、选择(Select)、压缩(Compress)和隔离(Isolate)。

图片

写入上下文

写入操作的核心是把智能体执行任务时需要的信息(计划、记忆、中间结果等)存储在上下文窗口之外,避免占用有限的窗口空间,同时确保后续可调用。具体分为两种方式:

草稿本(Scratchpads):就像做题时在草稿纸上演算,AI 处理复杂任务时也需要临时记录空间。智能体制定任务计划后,将计划存入草稿本(而非上下文窗口),防止窗口 Token 超限被截断。这是一种轻量级的、非持久化的写入,用于简化当前任务的复杂性。

记忆(Memories):用于跨会话/长期的信息持久化,类似人类的长期记忆,帮助智能体复用历史经验,比如用户偏好、重要事实或历史记录,结合向量存储、知识图谱实现长期存储。

图片

选择上下文

从外部存储(草稿本、记忆库、工具库等)中筛选出与当前任务最相关的信息,精准传入上下文窗口,避免无关信息占用空间,这就是选择的作用。

确定性选取:就像我们规定吃饭前必须先洗手,AI 也可以遵循预设规则加载固定信息。例如,Claude Code 会固定加载CLAUDE.md文件,Cursor和Windsurf使用规则文件。这是一种简单高效的先验知识注入。

模型驱动选取:当信息太多(比如有成百上千份文档),预设规则不够用时,模型可以利用自身能力判断哪些信息有用。

检索式选取:这是目前最常用的方式,核心是通过相似度检索匹配信息,从记忆、草稿纸或外部知识库中选取信息。

压缩上下文

压缩的目的是在不丢失关键信息的前提下,用更少的Token存储内容,让有限的空间容纳更多有效信息。

上下文摘要:当上下文快满时,AI 会自动总结已有信息,保留它认为最重要的部分。比如在处理长对话时,系统会把 10 轮聊天浓缩成一句 “用户喜欢拍照打卡,预算有限”,既节省空间又保留关键信息。

图片

上下文修剪:摘要通常使用LLM来提炼最相关的上下文片段,而修剪通常是去除不相关的信息,仅保留必要的结果,例如从消息列表中删除较旧的消息。

隔离上下文

不同类型的上下文可能会相互干扰从而导致错误,这有时被称为上下文中毒、干扰或混乱。

多智能体系统:隔离上下文最常用的方法之一是将复杂任务分解,并将子任务分配给不同的智能体,每个智能体都有各自独立的上下文窗口。这种关注点分离的方式比单个智能体试图同时管理所有上下文类型可以带来更可靠的性能。

图片

上下文与环境隔离:指的是把模型的对话/推理上下文和运行环境分开管理,防止相互干扰。通俗地说,就像把想法记录在笔记本上,而把实验操作放在实验室里,笔记本里写的内容不会污染实验室,实验室里的实验结果也不会直接改写笔记。技术上,这意味着模型的上下文只保存逻辑推理、任务状态等信息,而环境隔离层负责运行代码、调用工具或外部 API,两者之间互不干扰,从而保证安全性、稳定性和可复用性。

图片
小结

上下文工程的出现标志着大模型应用已经从能回答问题走向能系统地思考和协作。未来,无论是在多智能体协作,还是在人机交互的各种场景里,上下文工程都将是一种必不可少的基础能力。理解它,就像理解操作系统之于计算机一样,是迈向 AI 新时代的必修课。

读者福利大放送:如果你对大模型感兴趣,想更加深入的学习大模型**,那么这份精心整理的大模型学习资料,绝对能帮你少走弯路、快速入门**

如果你是零基础小白,别担心——大模型入门真的没那么难,你完全可以学得会

👉 不用你懂任何算法和数学知识,公式推导、复杂原理这些都不用操心;
👉 也不挑电脑配置,普通家用电脑完全能 hold 住,不用额外花钱升级设备;
👉 更不用你提前学 Python 之类的编程语言,零基础照样能上手。

你要做的特别简单:跟着我的讲解走,照着教程里的步骤一步步操作就行。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

现在这份资料免费分享给大家,有需要的小伙伴,直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型?

数据显示,2023 年我国大模型相关人才缺口已突破百万,这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代,产业对专业人才的需求将呈爆发式增长,据预测,到 2025 年这一缺口将急剧扩大至 400 万!!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战,跟着学习路线一步步打卡,小白也能轻松学会!
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够,这套学习资料还包含了丰富的实战案例,让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题,我都给大家汇总好了,能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
👉获取方式

😝有需要的小伙伴,可以保存图片到VX扫描下方二维码免费领取【保证100%免费】
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最适合零基础的!!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐