必收藏！谷歌上下文工程白皮书深度解析：构建有状态AI的两大核心基石

谷歌白皮书揭示构建有状态AI需上下文工程，分两大基石：临时"会话"工作台和持久"记忆"文件柜。会话面临上下文限制需压缩，记忆通过LLM驱动的ETL流程提取整合信息，并建立信任层级解决冲突。系统需异步写入、智能检索，确保安全隔离，真正实现个性化AI体验。---

AI绘画哇哒哒

586人浏览 · 2025-11-16 08:00:00

AI绘画哇哒哒 · 2025-11-16 08:00:00 发布

谷歌在第三天发布了《上下文工程：会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出，LLM模型本身是无状态的 (stateless)。如果要构建有状态的（stateful）和个性化的 AI，关键在于上下文工程。

在这里插入图片描述

具体来讲，LLM 的所有推理和意识都局限于单个 API 调用中提供的信息，即“上下文窗口”为了让 AI智能体（Agent）能够记住用户、学习偏好并个性化交互，开发者必须在每一次对话中动态地构建和管理这个上下文。这个动态组装和管理信息的过程，就被称为上下文工程 (Context Engineering)。与Prompt Engineering的区别在于：

提示工程：专注于制作最优的、通常是静态的系统指令。
上下文工程：则是一个动态的过程，它负责为 LLM 动态组装和管理整个有效载荷 (payload)，包括指令、工具、外部数据，以及最重要的——历史和记忆。

这份白皮书为我们提供了一张宝贵的架构蓝图。它警告说，一味追求更大的上下文窗口并不能解决根本问题——它只会带来更高的成本、更慢的延迟，以及一种被称为 “上下文腐烂” (context rot) 的现象，即模型在过长信息中的注意力会逐渐下降。

真正的解决方案是构建一个智能系统。这份文档将这个系统清晰地解构为两个协同工作的核心基石，并引入了一个贯穿始终的绝妙比喻：

会话 (Session)：是临时的“工作台” (Workbench)。
记忆 (Memory)：是持久的“文件柜” (Filing Cabinet)。

本文将深入解读这份白皮书的精髓，详细拆解构建一个真正“有记性”的智能系统所需的两大基石，以及它们之间复杂的协同机制。

基石一：会话 (Sessions)

“会话”是上下文工程的基础，是智能体的“工作台”。

定义：一个会话封装了单次、连续对话的即时对话历史和工作记忆。它与特定用户绑定，但一个用户可以拥有多个“断开连接”的会话。

这个“工作台”上放着两样东西：

事件 (Events)：即按时间顺序排列的对话历史。这是不可变的日志，包含了用户的输入、智能体的回复、工具的调用和工具的输出。
状态 (State)：一个结构化的“工作记忆”或“暂存器” (scratchpad)。这是可变的，用于存放当前对话的临时数据（例如，购物车中的商品）。

“工作台”的困境：混乱与过载

这个工作台模式在生产环境中会迅速遇到三个严峻的挑战：

上下文窗口限制：工作台的空间（上下文窗口）是有限的。对话历史一旦超出限制，API 调用就会失败。
成本与延迟：工作台上的东西越多（token 越多），处理它的成本（API 费用）就越高，速度（延迟）也越慢。
质量（上下文腐烂）：工作台上的东西太杂乱，智能体的注意力就会下降，性能变差，这就是“上下文腐烂” (context rot)。

文档将此比作一个精明的旅行者打包行李箱：你不能把所有东西都塞进去（成本高、混乱），也不能丢掉必需品（丢失关键信息）。

解决方案：压缩 (Compaction)

为了解决这个问题，我们必须在每次交互时对“会话”历史进行压缩 (Compaction)。

简单策略：

保留最近 N 轮：也称为“滑动窗口”，简单地丢弃旧信息。
基于令牌的截断：从最近的对话开始往回计算，直到达到 token 限制（如 4000 个 token）。

高级策略：

递归摘要 (Recursive Summarization)：这才是通向“记忆”的桥梁。系统使用 LLM 将对话中较早的部分替换为一个AI生成的摘要。这个摘要本身，就是一种原始的“记忆”。

会话的生产级挑战：隔离与互操作性

在将“会话”推向生产环境时，白皮书强调了两个必须解决的非功能性需求：

安全与隐私：这是不可协商的。

严格隔离：系统必须通过 ACLs（访问控制列表）强制执行，确保一个用户永远不能访问另一个用户的会话数据。
PII 删减：最佳实践是，在会话数据被写入存储之前，就使用 Model Armor 这样的工具自动编辑掉所有 PII（个人身份信息）。

多智能体互操作性 (Interoperability)：

问题：在一个多智能体系统中，不同的智能体框架（如谷歌的 ADK 或 LangGraph）使用各自私有的、不兼容的对象来定义“会话”。
后果：这导致了**架构孤岛，**ADK 智能体无法原生理解 LangGraph 智能体的会话历史。
解决方案：这迫使我们寻找一个更高阶的解决方案，将共享知识抽象到一个“与框架无关的数据层” (framework-agnostic data layer)。

这个与框架无关的、用于持久化和共享知识的通用层，就是“记忆”。

在这里插入图片描述

基石二：记忆 (Memory)

如果说“会话”是临时的“工作台”，那么“记忆”就是精心组织的“文件柜”。

定义：记忆是从对话或数据源中提取的、有意义的信息快照。它不是原始的逐字稿，而是跨多个会话持久化的、浓缩的知识。

在这里插入图片描述

“会话”是“记忆”的主要数据来源。当一个项目在“工作台”（会话）上完成后，你不会把整个凌乱的工作台塞进存储。相反，你会“创建记忆”——丢弃草稿，只把最终的、关键的文件归档到“文件柜”（记忆）中。

记忆的核心价值：它与 RAG 的根本区别

这是整篇白皮书中最重要的概念区分之一。记忆和 RAG（检索增强生成）都为 LLM 提供外部知识，但它们服务于完全不同且互补的目标。

文档再次使用了一个绝妙的比喻：

RAG (检索增强生成)：是智能体的“研究图书管理员” (Research Librarian)。

目标：注入外部的、事实性的、共享的知识（如 PDF、文档、网页）。
角色：RAG 使智能体成为事实专家。

记忆 (Memory)：是智能体的“私人助理” (Personal Assistant)。

目标：创建个性化的、有状态的体验。其数据源是与用户的动态对话。
角色：记忆使智能体成为用户专家。

一个真正智能的Agent，既需要“图书管理员”（RAG）来了解世界，也需要“私人助理”（记忆）来了解你。

记忆的详细分类：构建“文件柜”的蓝图

白皮书从多个维度对记忆进行了详细的解构，为我们提供了构建记忆系统的完整分类法：

按信息类型 (Information Type)：

陈述性记忆 (Declarative)：“知道什么” (Knowing what)。这是关于事实、数据和事件的知识（例如，“用户的座位偏好是靠窗”）。
程序性记忆 (Procedural)：“知道如何” (Knowing how)。这是关于技能和工作流的知识（例如，“预订航班的正确工具调用顺序”）。

按组织模式 (Organization Patterns)：

集合 (Collections)：一组独立的、自然语言的记忆事实（“用户喜欢A”，“用户住在B”）。
结构化用户画像 (Structured User Profile)：像一张不断更新的“联系人卡片”，存储核心事实（{"seat_preference": "window"}）。
滚动摘要 (Rolling Summary)：一个单一的、不断演变的自然语言摘要，代表整个用户关系。

按存储架构 (Storage Architectures)：

向量数据库：最常见的，用于语义相似性搜索（查找概念上相关的记忆）。
知识图谱：存储实体和它们之间的关系（查找结构化连接的记忆）。

按范围 (Scope)：

用户级 (User-Level)：最常见的，用于实现跨会话的个性化。
会话级 (Session-Level)：主要用于对话压缩，记忆只与该特定会话相关。
应用级 (Application-level)：所有用户共享的全局上下文，常用于存储程序性记忆（即智能体的“操作手册”）。

记忆的生命周期：一个 LLM 驱动的 ETL 管道

这部分是白皮书的技术核心。它揭示了“记忆管理器” (Memory Manager) 不是一个被动的数据库，而是一个主动的、由 LLM 驱动的 ETL (Extract, Transform, Load) 管道。

这个自动化的 ETL 流程，正是记忆管理器的核心价值所在。

在这里插入图片描述

步骤一：提取 (Extraction) —— 从噪音中分离信号

目标：回答“这段对话中，什么信息才算有意义，值得被记住？”。
挑战：这是一个过滤过程，旨在从对话“噪音”（如寒暄、废话）中分离出“信号”（如事实、偏好、目标）。
方法：记忆管理器使用一个 LLM，并通过“主题定义” (topic definitions) 来指导它。
技术实现：

模式/模板 (Schema)：强制 LLM 输出结构化的 JSON。
自然语言：用自然语言描述主题（例如，“提取用户对咖啡店氛围的反馈”）。
小样本提示 (Few-shot)：提供输入对话和理想输出记忆的示例，让 LLM 从中学习模式。

步骤二：整合 (Consolidation) —— 文件柜的“自我策展”

这是整个生命周期中最复杂、最智能的阶段。

目标：在将新信息存入文件柜之前，必须进行策展，以解决信息重复、信息冲突和信息演变的问题。
为什么必须？ 否则，文件柜会迅速变得混乱和不可信。例如：

冲突：用户今天说 “我喜欢靠窗座位”，而记忆中有一条“用户喜欢靠走道座位”。
演变：记忆中是“用户对营销感兴趣”，新信息是“用户正在领导一个 Q4 获客项目”。

流程 (Workflow)：

检索：获取与“新提取的记忆”相似的“已存在的记忆”。
分析：LLM 同时分析“已存在的记忆”和“新提取的记忆”。
决策：LLM 决定执行哪个操作：

UPDATE (更新)：用新信息修改或扩充旧记忆。
CREATE (创建)：如果信息是全新的。
DELETE / INVALIDATE (删除/失效)：如果旧记忆被新信息明确推翻。

存储：执行数据库事务。

关键机制：记忆溯源 (Memory Provenance) —— 建立信任

为了让“整合”阶段能智能地解决冲突，系统必须知道每条记忆的可信度。

问题：经典的“垃圾输入，垃圾输出”，在 LLM 时代变成了“垃圾输入，自信的垃圾输出”。
解决方案：追踪每条记忆的来源 (Provenance)，并建立一个“信任层级” (Hierarchy of Trust)。
信任排序：

高信任：引导数据 (Bootstrapped Data)。例如，从公司 CRM 系统预加载的用户数据。
中信任：显式用户输入。例如，用户明确说“记住我的生日是 10 月 26 日”。
低信任：隐式推断。例如，从“我下周要为我的周年纪念日买礼物”中推断出周年纪念日。

应用：

在整合时：用于解决冲突。当 CRM 数据（高信任）与对话推断（低信任）冲突时，系统应优先信任 CRM 数据。
在推理时：将“置信度分数”连同记忆一起注入提示词。这样 LLM 自己就能判断该在多大程度上依赖这条记忆。

生产中的记忆：架构、检索与推理

白皮书最后详细阐述了在生产环境中实现记忆系统的架构决策。

写入路径 (Generation)：异步是铁律

核心原则：记忆生成（提取和整合）是一个昂贵的操作，涉及 LLM 调用和数据库写入。
架构：它绝不能阻塞用户体验。因此，记忆生成必须始终作为异步（后台）进程运行。
流程：智能体立即响应用户，然后“推送”对话数据到记忆管理器，后者在后台排队处理。

读取路径 (Retrieval)：何时以及如何检索？

寻找什么？一个好的检索策略不只看相关性。它必须是一个混合分数，平衡了：

相关性 (Relevance)：与当前话题的语义相似度。
新近度 (Recency)：记忆是何时创建的。
重要性 (Importance)：这个记忆有多关键。

何时检索？（两大模式）

主动式检索 (Proactive Retrieval)：在每轮对话开始前自动检索记忆。

优点：上下文始终可用。
缺点：如果这轮对话不需要记忆，就会浪费延迟。

反应式检索 (Reactive Retrieval) / “记忆即工具”：智能体（LLM）在对话中自己决定何时需要信息，并主动调用一个 load_memory 工具来查询。

优点：更高效，只在需要时才产生延迟。
缺点：需要额外的 LLM 调用（“思考”步骤）来决定是否使用工具。

推理 (Inference)：记忆放在上下文的哪里？

方式一：放入系统指令 (System Instructions)。

优点：适合放用户画像等“全局”信息。上下文和对话历史被清晰分开。
缺点：有“过度影响”的风险（LLM 可能强行将所有话题与该记忆关联）。且无法与“反应式”检索（即工具）兼容。

方式二：放入对话历史 (Conversation History)。

优点：这是“反应式”工具调用的自然结果（工具的输出本就是历史的一部分）。
缺点：有“对话注入”风险（LLM 可能误认为这条记忆是用户或它自己说过的某句话）。

终极挑战：安全与未来

最后，这份文档以严谨的态度探讨了生产系统必须面对的残酷现实。

评估 (Evaluation)：一个记忆系统必须在三个层面被评估：

生成质量 (Precision/Recall)：智能体是否记住了“正确”的事情？
检索性能 (Recall@K, Latency)：智能体能否“快速”找到它需要的东西？
端到端任务成功率：记忆到底有没有用？ 使用一个 LLM “裁判” (judge) 来评判最终结果。

安全 (Security) —— 首要原则：

严格隔离 (Strict Isolation)：这是首要规则。一个用户的智能体绝对不能访问另一个用户的记忆。
PII 删减：必须在数据持久化之前完成。
记忆投毒 (Memory Poisoning)：这是最大的威胁之一。系统必须有防护措施（如 Model Armor），防止恶意用户通过提示注入 (Prompt Injection) 来故意污染或篡改智能体的长期记忆。

结论

谷歌的这份《上下文工程：会话与记忆》白皮书，清晰地定义了实现“有状态” AI 的两大核心组件，临时的“工作台”（会话）和持久的“文件柜”（记忆）。它不仅提供了蓝图，更深入到了 ETL 管道、信任层级、异步架构和安全模型的实现细节中。希望这篇文章能让您对Context Engineering拥有更深层的理解，所有资料我将在群里分享，欢迎来聊。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

44_FastMCP 2.x 中文文档之FastMCP集成：AWS Cognito 指南

2048 AI社区

没有IT团队也能搭建企业CRM？这套开源系统太省心了！

2048 AI社区

Swift 循环

法则说明1. 优先用for-in最清晰2. 能用函数式就不用循环3. 区间用...或..<避免i++4. 至少一次用防止空跑5. 多层循环用标签清晰跳出你已完全掌握 Swift 循环！回复关键词继续学习Swift 异步循环（async/await）Swift 并行 map（ConcurrentMap）Swift 循环优化技巧SwiftUI ForEach 原理现在就用mapfilterreduce