上下文工程——优化大语言模型性能的关键技术
本文全面介绍了上下文工程的概念与实施方法。上下文工程是在恰当时间、以恰当形式将恰当信息提供给大语言模型(LLM)的艺术与科学。作者将LLM比作CPU,上下文窗口比作RAM,并详细阐述了六种上下文类型:指令、示例、知识、记忆、工具和护栏。文章将上下文工程分解为四个基本阶段:编写、选择、压缩和隔离上下文,通过精心设计上下文工程,可以显著提升AI智能体的性能和响应准确性。
本文全面介绍了上下文工程的概念与实施方法。上下文工程是在恰当时间、以恰当形式将恰当信息提供给大语言模型(LLM)的艺术与科学。作者将LLM比作CPU,上下文窗口比作RAM,并详细阐述了六种上下文类型:指令、示例、知识、记忆、工具和护栏。文章将上下文工程分解为四个基本阶段:编写、选择、压缩和隔离上下文,通过精心设计上下文工程,可以显著提升AI智能体的性能和响应准确性。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
视觉化解读
上下文工程正变得越来越重要,但我们觉得很多人仍然难以真正理解它的实际含义。
今天,让我们以逐步的方式来全面了解上下文工程的一切!
我们开始吧!
简单来说,上下文工程就是一门艺术兼科学,其核心是在恰当的时间、以恰当的形式,将恰当的信息提供给你的LLM。
以下是Andrej Karpathy关于上下文工程的一段引语…

要理解上下文工程,首先必须理解上下文的含义。
如今的智能体已经演变成远不止聊天机器人。
下图总结了智能体正常运作所需的六种上下文类型,它们是:
注:在人工智能领域,“上下文”通常指模型处理任务时参考的额外信息,如用户输入的背景或历史数据;“智能体”则指能够自主感知环境、决策并行动的AI系统,例如基于大语言模型的程序,这些概念是理解上下文工程的关键。

- 指令
- 示例
- 知识
- 记忆
- 工具
- 护栏
这告诉你,仅仅“提示”智能体是不够的。
你必须对输入(上下文)进行工程化。
这样想:

- 如果LLM是CPU。
- 那么上下文窗口就是RAM。
本质上,你是在用完美的指令为你的人工智能编“RAM”。
我们该怎么做呢?
上下文工程可以分解为4个基本阶段:
这里的比喻将大语言模型(LLM)比作计算机的中央处理器(CPU),上下文窗口比作随机存取存储器(RAM)。CPU负责处理信息,RAM存储当前使用的数据;类似地,LLM处理输入指令,上下文窗口则提供处理所需的信息。通过精心设计上下文(编程“RAM”),我们可以优化AI的性能和输出。

|
- 编写上下文
- 选择上下文
- 压缩上下文
- 隔离上下文
让我们逐一理解每个阶段…
1) 编写上下文:
编写上下文指的是将上下文保存在上下文窗口之外,以帮助智能体执行任务。
注:上下文窗口(context window)指大语言模型处理输入时能考虑的最大文本长度,类似于计算机内存。智能体(agent)在人工智能中指能够感知环境并自主执行任务的系统,如聊天机器人或自动化程序。

您可以通过将其写入以下位置来实现:
- 长期记忆(跨会话持久保存)
- 短期记忆(在会话内持久保存)
- 状态对象
2) 读取上下文:
读取上下文指的是将其拉入上下文窗口,以帮助智能体执行任务。
上下文窗口是大语言模型(LLM)中一次性能处理的文本序列的最大长度。将上下文拉入窗口意味着使模型能够访问这些信息以进行推理或生成。

这个上下文可以从以下来源拉取:
- 工具
- 内存
- 知识(文档,向量数据库)
3) 压缩上下文
压缩上下文意味着只保留任务所需的token。
“知识”在这里指用于存储信息的数据库,如文档或向量数据库,后者专门处理高维向量数据,常用于机器学习中的相似性搜索。
“压缩上下文”是一种优化技术,通过筛选输入数据,仅保留对当前任务最重要的部分,以减少计算开销并提高效率。而“token”是大语言模型处理文本时的基本单位,通常对应单词或子词。

检索到的上下文可能包含重复或冗余信息(例如多轮工具调用),从而增加额外token消耗和成本。
上下文总结在这里能发挥作用。
4) 隔离上下文
隔离上下文涉及将其分割开来,以帮助智能体执行任务。

一些流行的实现方式包括:
- 使用多个智能体(或子智能体),每个都有其自己的上下文
- 使用沙盒环境来存储和执行代码
- 以及使用一个状态对象
因此,本质上,当你构建一个上下文工程工作流时,你是在工程化一个“上下文”管道,以便让大语言模型在正确的时间、以正确的格式看到正确的信息。
这正是上下文工程的工作原理!
就像你工程化特征以使机器学习模型工作一样…
- 那些对输出没有贡献的特征应该被移除
- 高度相关的特征在某些情况下可能帮助不大,等等…
…类似地,你工程化大语言模型的上下文,使其能够准确响应。
特征工程是数据科学中预处理数据的关键步骤,通过选择和构造相关特征来提升模型性能。类比到上下文工程,是通过设计输入上下文的结构和内容来优化大语言模型的输出。
没什么花哨的。
👉 大家来聊聊:你对上下文工程有什么看法?你用它构建过什么吗?
我的理念是:让天下没有难做的智能体。如果您的企业需要智能体降本提效创收,欢迎后台联系我!
🔥【AI与代码前沿基地】🚀 高频更新!助你抢占技术先机!
🌟 你是否:
❌ 苦恼AI技术更新太快,跟不上核心概念?
❌ 代码实操一学就会,一写就废?
❌ 想获取行业前瞻洞察,却找不到深度解析?
✅ 在这里,你将获得:
▷ 系统性AI知识库:机器学习→深度学习→大模型,零基础到进阶
▷ 最新技术速递:紧跟ChatGPT、Deepseek等全球AI突破,附实战代码
▷ 开发者工具箱:Python案例拆解+自动化实操,拒绝纸上谈兵
▷ AI解决方案:面向您的场景,端到端搭建AI解决方案
读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。
针对0基础小白:
如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓


👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐



所有评论(0)