本文强调Agent落地需“做减法”,避免过度依赖“更大的上下文、更全的工具、更复杂的流程”。核心在于保留完成当前任务“必要且充分”的信息、工具与步骤。文章从上下文工程视角出发,分析了上下文工程的重要性及失效模式,并提出了三个层面的“减法”原则和六个可落地的“减法动作”,如RAG精准检索、工具装载、上下文隔离等。此外,文章还介绍了文件系统在Agent中的应用,以及如何通过“减法”策略实现最小可行架构。最后,文章总结了常见的反模式,并强调做Agent不是“加法竞赛”,而是“减法艺术”。


做 agent 业务落地一定要做减法(图解版)

一句话结论:不要沉迷“更大的上下文、更全的工具、更复杂的流程”。Agent 落地的核心是做减法——只保留完成当前任务“必要且充分”的信息、工具与步骤。


核心挑战

上下文工程视角

  • “上下文工程是一种精妙的艺术与科学——在上下文窗口中填充恰到好处的信息,以支持下一步。”
  • “从这个视角看,智能体的上下文工程可能以多种方式‘失效’:”
  • “如果智能体所需要的上下文不在其可用的总上下文中,智能体就无法成功。”
  • “如果智能体检索到的上下文并不包含所需的上下文,智能体就无法正确作答。”
  • “如果智能体检索到的上下文远大于所需的上下文,那么它就是在浪费(时间、tokens,或两者)。”
  • “在尝试隔离合适的上下文时,会出现一些具体挑战:”
  1. “Token 过多(检索到的上下文 ≫ 必要上下文)”——“几次网页搜索就可能让会话历史膨胀到数万 token……账单上涨且性能下降。”
  2. “需要大量上下文(必要上下文 > 支持的窗口)”——“上下文很快增长到无法装入窗口。”
  3. “查找小众信息(检索到的上下文 ≠ 必要上下文)”——“信息埋在上百/上千个文件中。”
  4. “随时间学习(可用总上下文 ≠ 必要上下文)”——“是否有办法把交互中的关键信息加入到后续可用上下文?”

视觉总览

上下文工程方法总览

要点:上下文不是越多越好,目标是让“检索到的上下文”尽量贴近“真正需要的上下文”,并尽可能小的超集。


为什么必须做减法(图解)

更长的上下文窗口、更多的工具定义、更多轮的推理链,并不会自然带来更好的效果。常见失效模式:

  • 上下文中毒:早期的幻觉/错误被反复引用并固化。
  • 上下文干扰:窗口够大也会“过度依赖历史”,忽略训练知识,策略更新变慢。
  • 上下文混淆:给太多工具/资料,模型会尝试“用上它们”,导致跑偏。
  • 上下文冲突:多来源信息自相矛盾,平均性能明显下滑。

参考图 1(无关信息导致误用):

工具无关性干扰

参考图 2(分片对话引发冲突):

分片提示导致性能崩塌

来自工程一线的证据也在支持“做减法”:

  • [Cursor] 语义搜索显著提升工程可用性。未启用语义搜索时,不满意的后续用户请求增加约 2.2%;启用后代码留存率整体 +0.3%,在 ≥1000 文件的大型代码库中提升至 +2.6%。
  • [Cursor] grep + 语义搜索的混合检索在大型代码库效果最佳:先精确定位(grep),再语义扩展(embedding 检索)。
  • [LangChain] 文件系统是极佳的上下文“外部化”接口:把中间结果、长文本、工作笔记写入磁盘,主对话只携带必要摘要,显著降低 token 与干扰成本。

三个层面的“减法”原则(速记卡)

  • 信息做减法:只取相关片段;定期修剪与摘要;把中间态卸载到对话之外。
  • 工具做减法:只暴露与当前任务相关的少量工具,限制说明长度,避免描述重叠。
  • 流程做减法:能单体就别多体;多体要“隔离上下文、专注分工、最终汇总”。

六个可落地的“减法动作”(配图版|[LangChain])

  1. RAG 精准检索(信息选择)
  • 做什么:先界定检索范围,再从向量库取少量、干净的片段。不要把“所有资料”塞进上下文。
  • 怎么控量:k=3~5 起步;严格控制 chunk 长度与重叠;必要时加 rerank。
  • 落地要点:复杂查询可以接受 20k~25k token 的一次性成本,但回答阶段要只用“被证实相关”的片段。

RAG

  1. 工具装载(Tool Loadout,工具选择)
  • 做什么:面向任务动态挑选少量工具再绑定给 Agent,避免 30+ 工具并发污染上下文。
  • 参考做法:用向量库索引“工具描述”,先由小模型做“需要哪些能力”的草判,再语义检索出 top-5~10 工具装载。
  • 经验阈值:≤10 个通常最稳;≥30 容易描述重叠与误用。

Tool Loadout

  1. 上下文隔离(Context Quarantine,流程解耦)
  • 做什么:把可并行的子任务丢到各自的“独立上下文线程”里,最后再由 Supervisor 汇总。
  • 好处:关注点分离、降低路径依赖;实际案例表明多智能体并行可带来显著性能提升。
  • 注意:非并行任务不必强上多体,保持单体更稳定。

Context Quarantine

  1. 上下文修剪(Context Pruning,信息减重)
  • 做什么:定期把无关/过期/重复的片段从上下文里清掉,保护核心指令与目标。
  • 工具建议:轻量 reranker(如小模型或专用 rerank 模型)先过滤 80% 的冗余,再交给主模型。
  • 指标:RAG 阶段 25k → 修剪到 ~11k,答案质量不降是理想上限。

Context Pruning

  1. 上下文摘要(Context Summarization,信息压缩)
  • 做什么:把“都相关但太长”的材料,交给便宜模型做结构化摘要(保留要点、数据、结论)。
  • 策略:先修剪后摘要;摘要目标压缩 50%~70%。
  • 工程化:把摘要做成独立节点,便于离线评估与持续调优。

Context Summarization

  1. 上下文卸载(Context Offloading,信息外置)
  • 做什么:把长链路工具输出、思考草稿、会话记忆写入“文件系统/外部存储”,主对话只带短提示与必要引用。
  • 推荐形态:
  • scratchpad(草稿本):记录推理/中间态,不进入主上下文;
  • persistent store(持久化):跨会话的知识库与用户偏好。
  • 与文件系统结合:以“单一接口”读/写/更新无限量上下文,查询时只把命中的小片段回填进对话。

Context Offload


最小可行架构(MVP|图解)

把“做减法”的策略固化到一条轻量流水线里:

  1. 接收请求 → 解析“任务类型、所需能力、信息范围”。
  2. 工具装载 → 语义检索出 ≤8 个相关工具再绑定。
  3. 检索阶段 → 先精确(grep/结构化索引),再语义拓展(embedding + rerank)。
  4. 修剪阶段 → 基于原始问题做针对性过滤,丢弃明显无关/重复片段。
  5. 摘要阶段 → 把仍然很长的材料交给便宜模型做 50%~70% 压缩。
  6. 生成阶段 → 主模型回答,严格引用检索/摘要材料。
  7. 卸载阶段 → 把中间结果、长文本、可复用知识写入文件系统,保存最小“引用指纹”。

注意:以上 7 步并非每次全跑。默认只启用 1/2/3/6,随着任务复杂度再“按需打开”4/5/7。


文件系统如何帮到 Agent(图解|[LangChain])

要点:把工具调用结果、长文档、推理草稿落盘;主上下文只保留必要摘要与引用指纹。检索时按需读回相关片段,避免上下文泛滥。

挑战→解法一览(文件系统路径|[LangChain])

补充图解:

细分来看,其分别想解决的点:

  1. Token 过多(retrieved context >> necessary context)
  • 传统方式将工具调用结果、笔记全部存入对话历史,导致令牌冗余(如 10k token 的网页搜索结果全程占用对话资源)。
  • 文件系统方案将大量工具结果写入文件系统,仅在需要时通过 grep 搜索关键词、读取必要上下文,本质是将文件系统作为“大型上下文草稿本”,降低费用与干扰。
  1. 需要大量上下文(necessary context > supported window)
  • 存储长期任务计划:通过复述操控注意力的计划写入文件,后续随取随用。
  • 存储子智能体知识:子体执行时将所学写入文件而非仅反馈主体,减少“电话游戏”式失真。
  • 存储指令文件:把大量操作指令放入文件而非系统提示,避免提示臃肿。
  1. 查找小众信息(retrieved context ≠ necessary context)
  • 借助 ls/glob/grep 进行结构化定位与全文检索,精确命中相关片段。
  • 当前模型可理解文件系统遍历逻辑;文件系统按目录结构化存储,逻辑清晰。
  • glob/grep 可定位特定文件、行、字符;read_file 可按行范围读取。
  1. 随时间学习(total context ≠ necessary context)
  • 将“指令/技能”视为可编辑的上下文,存入文件系统并可更新。
  • 用户反馈后,立即把关键信息(如姓名、邮箱、偏好)落盘,供后续会话使用。

渐进式落地路线(从“能用”到“好用”|看图做事)

Stage 0 基线:

  • 单体 Agent + 少量手选工具(≤10)。
  • 直接 RAG 检索 k=3~5;不做摘要/修剪;对话内引用片段原文。

Stage 1 做减法:

  • 加入工具装载:动态选择工具并限制描述长度。
  • 加入修剪:把明显无关的检索结果剔除。
  • tokens 与时延即刻下降,稳定性提升。

Stage 2 降本增效:

  • 在长材料上引入摘要节点(小模型),压缩 50%~70%。
  • 引入文件系统卸载:工具长输出与草稿本不进主上下文。

Stage 3 并行加速(可选):

  • 可并行任务引入上下文隔离的多体结构(Supervisor 汇总)。
  • 严格控制每个子体工具/上下文规模,做到“并行不并乱”。

实证数据与量化指标(图表|[Cursor])

实证图 1(语义搜索与留存):

实证图 2(不满意追问下降):

来源:Cursor 语义搜索 A/B 实验与工程报告(https://cursor.com/cn/blog/semsearch)。

指标与报警建议:

  • token 成本:按阶段与会话维度统计;设置软/硬阈值(如 8k/16k)。
  • 工具面板规模:单次绑定工具数 ≤10;超过报警并落盘分析。
  • 检索有效率:被最终引用的片段占检索结果比例 ≥50%。
  • 语义搜索开关 A/B:观察代码留存率、不满意请求率变化(目标:留存↑,不满意↓)。
  • 回答一致性:跨多轮是否自洽,无自我矛盾与目标漂移。

常见反模式(看到就删)

  • “窗口大=一次性全塞”:容易中毒、干扰、混淆、冲突并发作。
  • “工具越多越聪明”:≥30 个工具常引发描述重叠与误用。
  • “链越长越强大”:长链路更应把中间态卸载到外部;主对话只带摘要。
  • “全部在线推”:摘要/修剪/重排可以异步或缓存,别把延迟都放一条链里。

结语

做 Agent 不是“加法竞赛”,而是“减法艺术”。

把信息、工具、流程都减到“必要且充分”,再用文件系统把“长材料与中间态”卸载到对话之外——你的 Agent 会更稳、更快、更省,也更容易在真实业务里长期留存与复用。

Less, but better. 先做减法,再谈进化。


开源项目(索引|[LangChain])

  • DeepAgents:https://github.com/langchain-ai/deepagents

  • how_to_fix_your_context(实践 Notebook 合集):https://github.com/langchain-ai/how_to_fix_your_context

  • DeepAgents 工具示意:

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
图片
图片
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

图片

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

img

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

在这里插入图片描述

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

5、面试试题/经验

img

【大厂 AI 岗位面经分享(107 道)】

img

【AI 大模型面试真题(102 道)】

img

【LLMs 面试真题(97 道)】

img

6、大模型项目实战&配套源码

img

适用人群

在这里插入图片描述

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

    在这里插入图片描述

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐