从提示词到上下文工程：AI 智能体开发的进阶指南

说实话，智能体的开发，核心就是调教。就像面对同样的新员工，不同公司有不同的培训方式，同样质量的新员工在不同的公司可能发展的好坏千差万别，和公司的培训体系、教学方式都有很大关系。所以，我一直认为，智能体开发是一个非常主观的事情，就像是一个公司的制度一样，可能有很多大公司的治理经验和体系化的制度可以供小公司参考。但是，最适合于自己公司的那套机制还是需要自己去开发的。保证100%免费。

m0_48891301

330人浏览 · 2025-11-17 10:55:22

m0_48891301 · 2025-11-17 10:55:22 发布

特斯拉前AI总监、OpenAI创始成员Andrej Karpathy曾公开表示：“上下文工程将重塑智能体开发逻辑，其重要性不亚于早期的深度学习框架革新”。这位AI领域的权威人士对上下文工程的力挺，让这一概念逐渐从技术圈的小众讨论，成为智能体开发的核心议题。

下面，我给大家分析一下这是一个什么概念，如何深入理解并掌握它。

1、提示词工程

大家都听说过提示词工程，教大模型怎么干活的这些文本，都属于提示词。

后来，大家发现，提示词一多，模型的效果不是很好，有时候根本不听话。我们在调试提示词的时候发现，大模型对于结构清晰的文本能够很好的遵循指令，所以，后来就有了提示词模版，一个好一点的提示词模版可能包含以下部分：

大模型的角色，例如：你是一个xxx专家，擅长xxx，能够xxx。
技能：例如：你可以帮助用户做以下任务：xxxx。
流程：例如：在执行任务xx时，你应该先xxx，然后xxx，最后根据xxx，执行xxx工具。
你可以使用以下工具：xxx工具的名称，作用，参数等（一个工具描述列表）。
样例：一些工具的示例用法、或者处理过程的示例。

在智能体刚刚兴起的时候，我们都是这样一点一点的摸索，去调试提示词，自己提炼出来一些模版。那时候，网上根本没有人教你怎么写提示词。后来一些专家写了几篇论文，教给我们写提示词。

那个时候最流行的就是手动编写的CoT（思维链）、few-shots（少样本提示）等。

说了这么多，可以引入所谓的上下文工程了。其实，就有点类似于上面说的提示词模版，属于工程化、精细化管理的提示词工程。

2、大模型的上下文窗口

上下文窗口（Context Window）是LLM在单次推理步骤中可以处理的有限信息量，通常以令牌（token）为单位来衡量。

它构成了LLM的短期工作记忆。近年来，上下文窗口的大小急剧扩展，从几千令牌增长到像GPT-4.1和Gemini 2.5 Pro等模型的一百多万令牌。这种扩展是更复杂上下文工程的关键推动力，上下文工程的核心任务，正是在这个有限的窗口内，“精巧地”和“科学地”填充与当前任务最相关的信息。

一个普遍的误解是将上下文窗口视为一个简单的数据管道。

然而，研究表明，填充上下文窗口是一个高度结构化的过程，包含用于系统提示、记忆、检索数据和工具定义的明确区域。信息的“格式”和“顺序”被反复强调为成功的关键因素。

例如，一条简洁的错误消息远胜于一个庞大的JSON数据块。这意味着开发者不仅仅是在“提供上下文”，而是在通过精心安排这个工作空间内的信息来有效地“编程”LLM在特定步骤中的推理过程。

因此，上下文工程可以被视为一种“在上下文中编程”（in-context programming）的形式。上下文窗口是新的编程环境，而令牌的排列组合则是新的代码。

在我看来，上下文工程的出现，很大原因是因为大模型能力提升了，大模型的上下文窗口增大了，可以在一次调用中塞入更多的内容。

为了让大模型（也可以说是智能体）更好地去完成一个任务，我们需要给智能体提供背景知识、工具、任务处理逻辑、状态等所有大模型需要感知的东西，为了把他们分类、描述清楚，让大模型更好地理解并遵循，从而提高智能体的表现，提出了上下文工程的概念。

构建真正有效的 AI 代理的关键不在于你编写的代码的复杂性，而在于你提供的上下文的质量。

3、上下文工程

上下文工程的定义比较主观，每个人的观点可能不太一样，所以他们所认为的上下文工程所包含的实际内容也不一样，众说纷纭，并且根据不同的场景，还会有不同版本的上下文工程的定义。下面我有几张图给大家参考一下。

一个经过精心设计的上下文通常由多个动态组装并注入到上下文窗口中的信息类构成。这些组件协同工作，为LLM提供一个丰富的、多维度的世界观，使其能够进行有效的推理和行动。

系统提示/指令 (System Prompt / Instructions)：这是为LLM设定其角色、个性、约束和整体行为的基础指令。它如同代理的“操作系统”或“蓝图”。

用户输入 (User Input)：来自用户的直接查询或命令，代表了当前需要处理的具体任务。

记忆系统 (Memory Systems)：

短期记忆（聊天历史）：当前对话的历史记录，提供即时的连续性。为了节省上下文空间，这部分通常会被压缩或总结。
长期记忆：跨会话持久化存储的信息，通常保存在向量数据库中。这可以包括用户偏好、过去的交互或习得的事实。

检索到的知识（RAG）：从外部知识库（如文档、代码库、数据库）动态获取的信息，用于将模型的回答“锚定”在事实之上。这是上下文工程的基石。
工具定义与模式 (Tool Definitions and Schemas)：对代理可用的工具（如API、函数）的描述，包括它们的参数和预期的输出格式。这些定义的格式对于LLM能否正确使用它们至关重要。
工具输出 (Tool Outputs)：先前工具调用的结果，这些结果被反馈到上下文中，为推理过程的下一步提供信息。
结构化输出模式 (Structured Output Schemas)：定义期望输出格式（例如JSON）的指令，这提高了可靠性，并使AI的输出能够被程序化地使用。

4、让智能体模仿人类

AI代理（AI Agent）是一个超越了简单响应生成的系统。它能够自主地规划、决策并使用工具来完成复杂的多步骤任务。

代理是上下文工程之所以如此关键的主要原因。它们规划和行动的能力完全取决于提供给它们的上下文质量，这包括它们的目标、记忆、可用工具以及对当前状态的理解。

上下文工程使得创建复杂的代理工作流成为可能。

在这样的工作流中，一个代理可能会：接收任务、检索相关数据（RAG）、决定使用某个工具、执行该工具、分析输出，然后生成最终响应或采取下一个行动。

这种上下文组装、推理和行动的动态循环，正是代理式AI的精髓。

从一个更宏观的视角看，一个上下文感知系统的架构，实际上是在模仿人类专家的认知架构。

系统提示类似于一个人的内在原则或职业角色（“我是一名医生，因此我必须精确和富有同情心”）。

短期记忆是我们在当前对话中的工作记忆。长期记忆是我们对过去经验和知识的回忆。

RAG是我们查阅书籍、数据库或互联网的能力。而工具使用则是我们使用计算器或医疗设备的能力。

因此，上下文工程本质上是为AI构建一个合成的认知架构。

它不仅仅是优化一个语言模型，而是在其周围构建一个完整的“心智”，配备了记忆、知识检索和工具处理能力。

这一视角将该学科从单纯的LLM优化技术提升为一种应用认知科学的形式。

其实，上下文工程所表达的核心思想是说：

想要让智能体能够更好地完成某项任务，需要给它提供足够多的上下文，让它能够非常清晰的知道达成这个目标需要怎么去做，有哪些东西可供它使用。

这个上下文目前我们做了这样那样的模版，但实际上，你可以自行地根据实际业务需求来扩展。

5、附录：Cursor中的上下文工程实践

Cursor是一个“AI优先”的集成开发环境，其设计的核心理念就是让开发者能够无缝、直观地为AI提供上下文。

代码库索引：当用户打开一个项目时，Cursor会自动在后台对整个代码库进行索引，为每个文件计算嵌入向量，并构建一个可供语义搜索的向量数据库。这是一个典型的、内置于IDE的RAG系统设置。
显式上下文引用（@符号）：这是Cursor在用户界面上的核心创新。开发者可以在聊天或指令中，通过@符号来“外科手术式”地精确注入上下文：