【必学收藏】法律与金融场景下的AI上下文工程：混合策略全解析与实战指南

Anthropic提出的"混合策略"上下文工程方法针对法律与金融领域设计，通过三层结构优化AI推理：稳定内容预置（角色/规则）、动态内容按需检索（任务材料）、外置记忆存储（结构化知识）。该方法解决了上下文污染和注意力稀释问题，平衡了预置信息与运行时检索的需求，特别适合规则稳定但后果严重的高风险场景。通过区分定位型与审查型检索，实现了材料在任务阶段的精准加载，提升AI代理的推理效

m0_63171455

407人浏览 · 2025-12-25 19:42:23

m0_63171455 · 2025-12-25 19:42:23 发布

本文介绍了Anthropic的"混合策略"上下文工程方法，适用于法律与金融场景。该方法将内容分为三类：稳定内容预先策展、相关内容按需检索、外置记忆结构化存储。通过三层上下文结构(前置、运行时、外置记忆)实现平衡，解决上下文污染问题，提升AI推理效率和准确性，降低高风险领域业务风险。

这篇文章用于解释并沉淀 Anthropic 在《Effective context engineering for AI agents》中提到的 hybrid strategy，并将其转译为适用于法律与金融场景的工程化理解。

原文：https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents

一、为什么要提出上下文工程的「混合策略」

混合策略（Hybrid Strategy） 可以概括为一句话：

稳定、确定、低频变化的内容由人类或系统预先策展；
体量大、与步骤强相关的内容由模型在运行时按需检索。

即在工程上明确分清哪些事情需要被提前固定，哪些事情可以留给运行时处理。

在上下文工程语境中，存在两种常见但都不理想的极端做法。

一种是前置一切：在任务开始前，把规则、背景、历史、材料全部塞进上下文，希望模型“看全局再推理”。

这种方式在复杂任务中很快会遇到上下文污染（context pollution）、推理退化和维护成本失控的问题。

这里的「上下文污染（context pollution）」是工程实践中常用的概括说法，指的是：当大量与当前推理弱相关或已过时的信息长期滞留在上下文中时，
这些 token 会持续消耗模型的注意力预算，干扰当前判断路径。

更常见的后果并不是模型"记不住"，而是注意力被低信号信息持续稀释。

另一种是完全放权给 agent：上下文极简，模型自行探索、自行决定加载什么信息。

理论上很优雅，但在现实业务中速度慢、路径不稳定，在高风险领域不可接受。

Anthropic 提出的混合策略，背后有一个前提：

上下文既不能无限预置，也不能完全交给模型自治。

也就是，上下文必须被视为一种有限的资源去分配，而不是无限扩张。

这一判断在原文中有一个非常明确的理论背景，即所谓的 “上下文腐烂（context rot）”。

二、为什么法律与金融特别适合混合策略

Anthropic 在原文中点名 legal / finance，并非偶然，而是基于这两个领域的结构特征。

这两个领域的一个共同特征，是核心规则本身变化并不频繁。

法律规范、合规框架、审查方法论往往具有较长的稳定周期，可以被清晰地抽象为原则、边界和责任结构。

但一旦判断出现偏差，所带来的后果成本却极高。这种“低频变化 + 高代价后果”的组合，意味着关键规则不适合在运行时临时生成，而应当由人类提前确立。

与此同时，法律与金融工作中涉及的大量具体材料，本身又呈现出强烈的阶段性。无论是判例、合同文本，还是尽调材料、财务报表，它们的信息体量都很大，却往往只在特定任务的某个阶段才具有判断价值。

这类信息更适合在需要时被精确检索，而不是作为背景长期前置进上下文。

还有一个现实是，这两个行业的容错率极低。

在实际业务中，很难接受模型“试一试再修正”的探索式理解路径，也无法容忍关键条款被遗漏或被错误弱化。

因此，在推理开始之前，由人类明确划定推理边界，本身就是一种必要的工程约束，更接近对业务风险的回应。

三、关于上下文腐烂（Context Rot）与工程风险

在 Anthropic 的原文中，对这一问题有非常直接的表述：

“Studies on needle-in-a-haystack style benchmarking have uncovered the concept of context rot: as the number of tokens in the context window increases, the model’s ability to accurately recall information from that context decreases.”

对应的中文含义是：

在“干草堆里找针”式测试中，人们发现了上下文腐烂（context rot）这一现象：随着上下文窗口中 token 数量的增加，模型从中准确回忆与使用信息的能力会下降。

Anthropic 进一步指出：

“Context, therefore, must be treated as a finite resource with diminishing marginal returns.”

即：

上下文必须被视为一种有限资源，其边际收益是递减的。

需要注意的是，这里的「腐烂」并不是指信息失效或被遗忘，而是一种推理质量层面的退化：

重要信息仍然存在于上下文中
但其在注意力分配中的权重下降
推理路径更容易被历史噪声、无关细节或旧决策牵引

这也是为什么在工程实践中，人们常将 context rot 与 attention dilution（注意力稀释） 视为同一类问题。

四、混合策略在工程上的典型结构

在这里，可以将 Anthropic 的混合策略，与我一直使用的三层上下文理论直接对应起来。具体可以参见我之前写的文章：

双重上下文机制在法律服务中的迁移运用：AI 律师的上下文构建方法论（前两层上下文）

Skills Instead Of Agents：不做智能体，先把你的专业能力写成 Skills（第三层技能上下文）。

两者描述的是同一件事，只是视角不同。

一个标准的法律 / 金融混合上下文，大致由三层构成。

1. 前置上下文（Stable Context）

在我的体系中，这一层对应的是第一层上下文，即主体与角色上下文。

它在任务开始时即被提供，并且通常不随任务推进而变化。

这一层所承载的，是模型在进入推理之前就应当接受的前提条件。

例如，角色所承担的责任边界、专业身份对应的义务范围、任务目标与评价标准，以及基本的方法论立场和审查顺序。

这些内容并不用于参与具体判断，而是用于限定判断发生的空间。

换句话说，这一层解决的并不是"如何推理"，而是"哪些问题不应成为推理对象"。它的作用在于冻结争议空间，使模型既不需要、也不被允许在这些前提问题上自由发挥。

2. 运行时上下文（Dynamic Context）

第二层上下文对应的是任务或项目上下文。

这一层具有明显的阶段性，由模型在执行过程中根据任务进度按需加载。

它所包含的内容，通常是当前步骤必须依赖的事实材料与文本片段，例如特定条款、判例段落、项目证据或数据。

这些信息并不需要长期保留，而是随着任务阶段的推进不断被替换、清理或压缩。

这一层回答的核心问题是：在这个具体任务的这个阶段，模型此刻必须看到什么，才能合理地继续向下推理。

正因为如此，它天然具有短生命周期，也最容易成为上下文工程需要重点治理的对象。

3. 外置记忆（Out-of-Context Memory）

第三层上下文对应的是能力或技能上下文。

它并不直接参与每一次推理，而是以外部资源的形式存在，在需要时被引用或调用。

这一层所承载的，并非原始材料，而是经过理解、压缩和验证后的认知成果，例如阶段性结论、风险判断模式、可复用的方法或模板。

这些内容一旦形成，就具有跨任务复用的价值，但并不适合长期占用模型的注意力预算。

因此，它们通常以文件、技能或结构化记录的方式存在，通过"调用"而非"常驻"的方式进入上下文，从而在稳定性与灵活性之间取得平衡。

五、RAG 在三层上下文中的位置与作用

1. 材料入口与三层位置

在法律和金融场景中，RAG 几乎是一种无法回避的基础设施。

RAG 的来源并不等同于“法律检索”或“判例检索”。

在大量真实业务中，RAG 更常接入的是案件材料与证据材料本身：卷宗、尽调文件、合同附件、往来邮件、财务凭证、审计底稿，以及扫描件、录音转写或图片识别后的文本结果。

在三层上下文理论中，RAG 不是一个单独的上下文层，而是一种上下文的供给机制。

它更关心的是材料在什么时候进入推理视野。规则来源与审查顺序需要在第一层上下文里先定清楚。

工程实现上，RAG 的主要落点在第二层：按任务阶段按需加载材料片段。

2. 两类检索：定位型与审查型

为了描述法律场景里的差异，我把检索任务粗分成两类：定位型检索与审查型检索。

这是本文的工作定义，不是 RAG 领域的固定术语。

在通用检索的语境里，它大致贴近两类常见问题：事实查找/定位（factual lookup / navigational）与需要综合解释的分析型问题（analytical）。

定位型检索解决"把材料找出来"。RAG 把相关片段召回出来，做必要的排序或重排，把结果交给模型阅读即可。

比如从卷宗里定位某个日期的邮件、从尽调材料里找某条承诺的出处、从合同附件里找某个表格数据。

审查型检索看上去也在"找材料"，但后面紧跟着判断：效力层级、证据能力、证明力、构成要件是否满足；在金融语境里，还会牵涉到口径、假设、重要性（materiality）与风险偏好。

RAG 可以把材料带进来，判断标准与审查顺序需要在第一层上下文里写清楚，否则"相关性排序"很容易被误用成"审查顺序"或"权重来源"。

3. 常见误用与治理要点

实践里经常出现一种用法：把检索结果当成"依据本身"，再让模型顺着检索排序去推理，最后把排序出来的材料拼成判断标准。

这里的问题在于：检索结果无论来自数据库还是案件卷宗，都只是候选材料，排序表达的是相关性信号。

把候选材料当作"依据本身"，推理就会被相关性列表牵着走。证据链该按争点、构成要件、证据能力与证明力去组织时，容易出现遗漏链条，或者把"看起来相关"当成"足以证明"。

审查型检索里需要把接口写清楚：先看什么、怎么过滤、怎么引用出处、什么情况下必须提示材料缺口。RAG 把材料送进来，推理按框架使用材料，材料才不会反过来牵引规则。

RAG 也常被用来缓解上下文腐烂：避免把“可能有用的一切”长期塞进上下文，改成在需要时精确拉取。这里同样需要阶段控制，检索到的内容如果长期滞留，也会制造新的污染。

至于第三层上下文，检索结果不会直接沉淀进去。

只有当材料被理解、压缩并转化为结构化结论、风险模式或可复用的判断逻辑时，才适合进入能力层。

六、一些仍然需要被验证的问题

把混合上下文策略放进真实的法律与金融工作中，很快就会遇到一个更具体的问题：哪些判断在一开始就必须被固定下来，哪些判断才有可能在后续交给模型处理。

在实际业务推进过程中，这些问题并不会一次性得到答案，而是会在不同项目、不同阶段反复出现。

一类问题与“判断权”有关。

哪些判断必须始终由人类预先给出规则和顺序，模型只能在限定空间内推理；哪些判断可以随着模型能力的提升，被逐步转化为可委托的计算任务。

这条边界无法一次性划清的，而是需要在实践中不断回看和修正。

另一类问题与“材料使用”有关。

RAG 在什么阶段引入最合适，引入的粒度应当如何控制，检索结果应当在上下文中停留多久，才能既支持推理，又不反过来污染注意力预算。这些问题看上去像检索问题，实际更接近上下文治理。

还有一些问题指向长期协作。

随着 agent 能力增强，哪些上下文仍然需要由人类持续策展，哪些可以逐步交由系统自动维护；哪些外置记忆应当被反复调用，哪些只适合作为一次性参考。

这些选择，将直接决定混合策略是否会在规模化应用中失效。

在实际使用中，混合策略往往会变成一种默认的工作节奏：先把必须写死的判断边界固定下来，其余部分留在推进过程中逐步补齐和修正。

很多边界到底画在哪里，通常要在项目里走过一轮才看得更清楚。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述