必收藏!谷歌上下文工程白皮书深度解析:构建有状态AI的两大核心基石
谷歌白皮书揭示构建有状态AI需上下文工程,分两大基石:临时"会话"工作台和持久"记忆"文件柜。会话面临上下文限制需压缩,记忆通过LLM驱动的ETL流程提取整合信息,并建立信任层级解决冲突。系统需异步写入、智能检索,确保安全隔离,真正实现个性化AI体验。---
谷歌在第三天发布了《上下文工程:会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出,LLM模型本身是无状态的 (stateless)。如果要构建有状态的(stateful)和个性化的 AI,关键在于上下文工程。


具体来讲,LLM 的所有推理和意识都局限于单个 API 调用中提供的信息,即“上下文窗口”为了让 AI智能体(Agent)能够记住用户、学习偏好并个性化交互,开发者必须在每一次对话中动态地构建和管理这个上下文。这个动态组装和管理信息的过程,就被称为上下文工程 (Context Engineering)。与Prompt Engineering的区别在于:

- 提示工程:专注于制作最优的、通常是静态的系统指令。
- 上下文工程:则是一个动态的过程,它负责为 LLM 动态组装和管理整个有效载荷 (payload),包括指令、工具、外部数据,以及最重要的——历史和记忆。
这份白皮书为我们提供了一张宝贵的架构蓝图。它警告说,一味追求更大的上下文窗口并不能解决根本问题——它只会带来更高的成本、更慢的延迟,以及一种被称为 “上下文腐烂” (context rot) 的现象,即模型在过长信息中的注意力会逐渐下降。
真正的解决方案是构建一个智能系统。这份文档将这个系统清晰地解构为两个协同工作的核心基石,并引入了一个贯穿始终的绝妙比喻:
- 会话 (Session):是临时的“工作台” (Workbench)。
- 记忆 (Memory):是持久的“文件柜” (Filing Cabinet)。
本文将深入解读这份白皮书的精髓,详细拆解构建一个真正“有记性”的智能系统所需的两大基石,以及它们之间复杂的协同机制。
基石一:会话 (Sessions)
“会话”是上下文工程的基础,是智能体的“工作台”。
定义:一个会话封装了单次、连续对话的即时对话历史和工作记忆。它与特定用户绑定,但一个用户可以拥有多个“断开连接”的会话。
这个“工作台”上放着两样东西:

- 事件 (Events):即按时间顺序排列的对话历史。这是不可变的日志,包含了用户的输入、智能体的回复、工具的调用和工具的输出。
- 状态 (State):一个结构化的“工作记忆”或“暂存器” (scratchpad)。这是可变的,用于存放当前对话的临时数据(例如,购物车中的商品)。
“工作台”的困境:混乱与过载
这个工作台模式在生产环境中会迅速遇到三个严峻的挑战:
- 上下文窗口限制:工作台的空间(上下文窗口)是有限的。对话历史一旦超出限制,API 调用就会失败。
- 成本与延迟:工作台上的东西越多(token 越多),处理它的成本(API 费用)就越高,速度(延迟)也越慢。
- 质量(上下文腐烂):工作台上的东西太杂乱,智能体的注意力就会下降,性能变差,这就是“上下文腐烂” (context rot)。
文档将此比作一个精明的旅行者打包行李箱:你不能把所有东西都塞进去(成本高、混乱),也不能丢掉必需品(丢失关键信息)。
解决方案:压缩 (Compaction)
为了解决这个问题,我们必须在每次交互时对“会话”历史进行压缩 (Compaction)。
- 简单策略:
- 保留最近 N 轮:也称为“滑动窗口”,简单地丢弃旧信息。
- 基于令牌的截断:从最近的对话开始往回计算,直到达到 token 限制(如 4000 个 token)。
- 高级策略:
- 递归摘要 (Recursive Summarization):这才是通向“记忆”的桥梁。系统使用 LLM 将对话中较早的部分替换为一个AI生成的摘要。这个摘要本身,就是一种原始的“记忆”。
会话的生产级挑战:隔离与互操作性
在将“会话”推向生产环境时,白皮书强调了两个必须解决的非功能性需求:

- 安全与隐私:这是不可协商的。
- 严格隔离:系统必须通过 ACLs(访问控制列表)强制执行,确保一个用户永远不能访问另一个用户的会话数据。
- PII 删减:最佳实践是,在会话数据被写入存储之前,就使用 Model Armor 这样的工具自动编辑掉所有 PII(个人身份信息)。
- 多智能体互操作性 (Interoperability):
- 问题:在一个多智能体系统中,不同的智能体框架(如谷歌的 ADK 或 LangGraph)使用各自私有的、不兼容的对象来定义“会话”。
- 后果:这导致了**架构孤岛,**ADK 智能体无法原生理解 LangGraph 智能体的会话历史。
- 解决方案:这迫使我们寻找一个更高阶的解决方案,将共享知识抽象到一个“与框架无关的数据层” (framework-agnostic data layer)。
这个与框架无关的、用于持久化和共享知识的通用层,就是“记忆”。

基石二:记忆 (Memory)
如果说“会话”是临时的“工作台”,那么“记忆”就是精心组织的“文件柜”。
定义:记忆是从对话或数据源中提取的、有意义的信息快照。它不是原始的逐字稿,而是跨多个会话持久化的、浓缩的知识。

“会话”是“记忆”的主要数据来源。当一个项目在“工作台”(会话)上完成后,你不会把整个凌乱的工作台塞进存储。相反,你会“创建记忆”——丢弃草稿,只把最终的、关键的文件归档到“文件柜”(记忆)中。
记忆的核心价值:它与 RAG 的根本区别
这是整篇白皮书中最重要的概念区分之一。记忆和 RAG(检索增强生成)都为 LLM 提供外部知识,但它们服务于完全不同且互补的目标。

文档再次使用了一个绝妙的比喻:
- RAG (检索增强生成):是智能体的“研究图书管理员” (Research Librarian)。
- 目标:注入外部的、事实性的、共享的知识(如 PDF、文档、网页)。
- 角色:RAG 使智能体成为事实专家。
- 记忆 (Memory):是智能体的“私人助理” (Personal Assistant)。
- 目标:创建个性化的、有状态的体验。其数据源是与用户的动态对话。
- 角色:记忆使智能体成为用户专家。
一个真正智能的Agent,既需要“图书管理员”(RAG)来了解世界,也需要“私人助理”(记忆)来了解你。
记忆的详细分类:构建“文件柜”的蓝图
白皮书从多个维度对记忆进行了详细的解构,为我们提供了构建记忆系统的完整分类法:
- 按信息类型 (Information Type):
- 陈述性记忆 (Declarative):“知道什么” (Knowing what)。这是关于事实、数据和事件的知识(例如,“用户的座位偏好是靠窗”)。
- 程序性记忆 (Procedural):“知道如何” (Knowing how)。这是关于技能和工作流的知识(例如,“预订航班的正确工具调用顺序”)。
- 按组织模式 (Organization Patterns):
- 集合 (Collections):一组独立的、自然语言的记忆事实(“用户喜欢A”,“用户住在B”)。
- 结构化用户画像 (Structured User Profile):像一张不断更新的“联系人卡片”,存储核心事实(
{"seat_preference": "window"})。 - 滚动摘要 (Rolling Summary):一个单一的、不断演变的自然语言摘要,代表整个用户关系。
- 按存储架构 (Storage Architectures):
- 向量数据库:最常见的,用于语义相似性搜索(查找概念上相关的记忆)。
- 知识图谱:存储实体和它们之间的关系(查找结构化连接的记忆)。
- 按范围 (Scope):
- 用户级 (User-Level):最常见的,用于实现跨会话的个性化。
- 会话级 (Session-Level):主要用于对话压缩,记忆只与该特定会话相关。
- 应用级 (Application-level):所有用户共享的全局上下文,常用于存储程序性记忆(即智能体的“操作手册”)。
记忆的生命周期:一个 LLM 驱动的 ETL 管道
这部分是白皮书的技术核心。它揭示了“记忆管理器” (Memory Manager) 不是一个被动的数据库,而是一个主动的、由 LLM 驱动的 ETL (Extract, Transform, Load) 管道。
这个自动化的 ETL 流程,正是记忆管理器的核心价值所在。


步骤一:提取 (Extraction) —— 从噪音中分离信号


- 目标:回答“这段对话中,什么信息才算有意义,值得被记住?”。
- 挑战:这是一个过滤过程,旨在从对话“噪音”(如寒暄、废话)中分离出“信号”(如事实、偏好、目标)。
- 方法:记忆管理器使用一个 LLM,并通过“主题定义” (topic definitions) 来指导它。
- 技术实现:
- 模式/模板 (Schema):强制 LLM 输出结构化的 JSON。
- 自然语言:用自然语言描述主题(例如,“提取用户对咖啡店氛围的反馈”)。
- 小样本提示 (Few-shot):提供输入对话和理想输出记忆的示例,让 LLM 从中学习模式。
步骤二:整合 (Consolidation) —— 文件柜的“自我策展”
这是整个生命周期中最复杂、最智能的阶段。
- 目标:在将新信息存入文件柜之前,必须进行策展,以解决信息重复、信息冲突和信息演变的问题。
- 为什么必须? 否则,文件柜会迅速变得混乱和不可信。例如:
- 冲突:用户今天说 “我喜欢靠窗座位”,而记忆中有一条“用户喜欢靠走道座位”。
- 演变:记忆中是“用户对营销感兴趣”,新信息是“用户正在领导一个 Q4 获客项目”。
- 流程 (Workflow):
- 检索:获取与“新提取的记忆”相似的“已存在的记忆”。
- 分析:LLM 同时分析“已存在的记忆”和“新提取的记忆”。
- 决策:LLM 决定执行哪个操作:
- UPDATE (更新):用新信息修改或扩充旧记忆。
- CREATE (创建):如果信息是全新的。
- DELETE / INVALIDATE (删除/失效):如果旧记忆被新信息明确推翻。
- 存储:执行数据库事务。
关键机制:记忆溯源 (Memory Provenance) —— 建立信任
为了让“整合”阶段能智能地解决冲突,系统必须知道每条记忆的可信度。

- 问题:经典的“垃圾输入,垃圾输出”,在 LLM 时代变成了“垃圾输入,自信的垃圾输出”。
- 解决方案:追踪每条记忆的来源 (Provenance),并建立一个“信任层级” (Hierarchy of Trust)。
- 信任排序:
- 高信任:引导数据 (Bootstrapped Data)。例如,从公司 CRM 系统预加载的用户数据。
- 中信任:显式用户输入。例如,用户明确说“记住我的生日是 10 月 26 日”。
- 低信任:隐式推断。例如,从“我下周要为我的周年纪念日买礼物”中推断出周年纪念日。
- 应用:
- 在整合时:用于解决冲突。当 CRM 数据(高信任)与对话推断(低信任)冲突时,系统应优先信任 CRM 数据。
- 在推理时:将“置信度分数”连同记忆一起注入提示词。这样 LLM 自己就能判断该在多大程度上依赖这条记忆。
生产中的记忆:架构、检索与推理
白皮书最后详细阐述了在生产环境中实现记忆系统的架构决策。
写入路径 (Generation):异步是铁律
- 核心原则:记忆生成(提取和整合)是一个昂贵的操作,涉及 LLM 调用和数据库写入。
- 架构:它绝不能阻塞用户体验。因此,记忆生成必须始终作为异步(后台)进程运行。
- 流程:智能体立即响应用户,然后“推送”对话数据到记忆管理器,后者在后台排队处理。
读取路径 (Retrieval):何时以及如何检索?
- 寻找什么?一个好的检索策略不只看相关性。它必须是一个混合分数,平衡了:
- 相关性 (Relevance):与当前话题的语义相似度。
- 新近度 (Recency):记忆是何时创建的。
- 重要性 (Importance):这个记忆有多关键。
- 何时检索?(两大模式)
-
主动式检索 (Proactive Retrieval):在每轮对话开始前自动检索记忆。

- 优点:上下文始终可用。
- 缺点:如果这轮对话不需要记忆,就会浪费延迟。
-
反应式检索 (Reactive Retrieval) / “记忆即工具”:智能体(LLM)在对话中自己决定何时需要信息,并主动调用一个
load_memory工具来查询。
- 优点:更高效,只在需要时才产生延迟。
- 缺点:需要额外的 LLM 调用(“思考”步骤)来决定是否使用工具。
推理 (Inference):记忆放在上下文的哪里?
- 方式一:放入系统指令 (System Instructions)。
- 优点:适合放用户画像等“全局”信息。上下文和对话历史被清晰分开。
- 缺点:有“过度影响”的风险(LLM 可能强行将所有话题与该记忆关联)。且无法与“反应式”检索(即工具)兼容。
- 方式二:放入对话历史 (Conversation History)。
- 优点:这是“反应式”工具调用的自然结果(工具的输出本就是历史的一部分)。
- 缺点:有“对话注入”风险(LLM 可能误认为这条记忆是用户或它自己说过的某句话)。
终极挑战:安全与未来
最后,这份文档以严谨的态度探讨了生产系统必须面对的残酷现实。
- 评估 (Evaluation): 一个记忆系统必须在三个层面被评估:
- 生成质量 (Precision/Recall):智能体是否记住了“正确”的事情?
- 检索性能 (Recall@K, Latency):智能体能否“快速”找到它需要的东西?
- 端到端任务成功率:记忆到底有没有用? 使用一个 LLM “裁判” (judge) 来评判最终结果。
- 安全 (Security) —— 首要原则:
- 严格隔离 (Strict Isolation):这是首要规则。一个用户的智能体绝对不能访问另一个用户的记忆。
- PII 删减:必须在数据持久化之前完成。
- 记忆投毒 (Memory Poisoning):这是最大的威胁之一。系统必须有防护措施(如 Model Armor),防止恶意用户通过提示注入 (Prompt Injection) 来故意污染或篡改智能体的长期记忆。
结论
谷歌的这份《上下文工程:会话与记忆》白皮书,清晰地定义了实现“有状态” AI 的两大核心组件,临时的“工作台”(会话)和持久的“文件柜”(记忆)。它不仅提供了蓝图,更深入到了 ETL 管道、信任层级、异步架构和安全模型的实现细节中。希望这篇文章能让您对Context Engineering拥有更深层的理解,所有资料我将在群里分享,欢迎来聊。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
更多推荐


所有评论(0)