在前面几篇介绍中,我们通过 Prompt 工程为模型建立了单次生成层面的约束—— 比如明确系统角色、限定回答范围、规范输出格式等。这些方法在单轮对话中往往能取得不错的效果:用户问一个问题,系统基于设定的规则和知识库给出答案,看起来 既准确又可靠。

但如果你真正将企业知识库助手投入实际使用,很快就会收到用户这样的反馈:“一开始回答得挺准的,多聊几句就越来越离谱了。”

这并非 Prompt 突然失效,也不是模型能力下降,而是当对话从 “单轮” 进入 “多轮”,系统面临了一个全新的挑战维度 —— 时间。在持续交互中,历史信息的累积会逐渐改变模型的输入环境,进而打破最初设定的约束边界。

接下来,我们将从上下文窗口的本质出发,逐步拆解多轮对话失控的根源,最终落地一套可工程化的上下文管理方案。


在讨论“记忆”之前,我们必须先回答一个技术决策层面的问题

当用户开始连续提问时,我们是否应该“尽量多地保留历史对话”?

很多团队在这个问题上的直觉答案是:

当然要保留,历史越完整,模型越能理解上下文,回答自然更准确

但这一章要做的事情,正是推翻这个直觉 —— 因为 “全量保留历史” 不仅无法解决问题,反而会埋下系统失控的隐患。


6.1 一个常被忽略的事实:上下文不是记忆

在 LLM 的 API 交互中,我们通常通过 messages 参数传入对话历史,格式类似这样:

[
{"role":"system","content":"..."},
{"role":"user","content":"..."},
{"role":"assistant","content":"..."}
]

这很容易让人产生一个工程误判:

“只要我把历史消息都塞进去,模型就能记住一切。”

但如果回到第一部分对 LLM 本质 —— token序列的概率预测模型 —— 的分析,你会发现:

•模型接收的所有上下文(包括系统提示、用户提问、历史回答)会被一次性拼接成一个长 token 序列(比如上述示例会变成 “<system>你是企业知识库助手…<user>请问年假怎么申请?<assistant>需通过 OA 系统…”)•它并不知道哪些是“历史”,哪些是“当前”(即它只会基于整个序列的统计规律预测下一个 token)•更不知道哪些信息在工程上更重要(比如 “仅回答内部政策”),哪些是 “临时的无关信息”。

因此,一个关键认知是:

上下文只是输入数据,而不是记忆机制。

人类的记忆会主动筛选、分层、关联信息,而上下文只是无序的信息堆砌。


6.2 上下文窗口的三个硬限制(为什么“全塞进去”一定会失败)

即使你愿意无条件保留所有历史,对话系统也会很快撞上三个不可绕过的限制:

1.长度上限:超过窗口,信息会被直接截断

所有 LLM 都有明确的 token 长度限制(比如 GPT-3.5 为 4k token,GPT-4 基础版为 8k token,增强版为 128k token)。当历史对话累积的 token 数超过这个上限时,系统只能通过 “截断” 处理(通常是删除最早的内容),这会直接导致早期关键信息(比如系统约束)丢失。举例:如果系统提示包含

“禁止回答外部政策”,但随着对话变长,这条约束被挤出窗口,模型就可能开始回答无关内容。

1.注意力衰减:越靠前的信息,影响力越弱

举例:用户在第 1 轮提到 “我是市场部员工”,到第 10 轮询问报销政策时,模型可能已经 “忽略” 了这个身份信息,给出了不适用的规则。

1.成本与延迟:token 越多,系统越慢、越贵

LLM 的调用成本(按 token 计费)和响应延迟与上下文长度正相关。全量保留历史会导致每轮对话的 token 数持续增长,直接推高系统成本(可能是初始成本的 10 倍以上),同时延长用户等待时间(从几百毫秒增至几秒)。

这些限制最终会导致一个危险的后果:

最早写下的系统约束(比如 “仅用知识库内容回答”“不泄露隐私”),反而最先失效。


6.3 技术决策的失败路径:对话为什么会“慢慢跑偏”?

当我们坚持 “全量保留历史对话” 时,对话系统会沿着一条可预见的路径逐渐失控,我们可以用一个流程图来理解这个过程:

这并不是模型突然变差,而是系统在时间维度上失去了对约束的控制权。每一轮对话都会让关键规则的影响力减弱一分,直到最后完全失效。

比如,一个初始设定为 “仅回答薪酬相关问题” 的助手,在多轮对话后可能会开始回应 “公司地址”“产品价格” 等无关内容 —— 不是它 “忘记” 了规则,而是规则在上下文序列中被稀释到几乎无法影响预测结果。


6.4 本章小结:一个必须接受的结论

通过本章的分析,我们可以得出一个明确的结论:

•“尽量保留所有上下文”是一个工程反模式(Anti-pattern),它会导致约束失效、成本飙升、体验下降。•上下文窗口无法承担“长期记忆”的职责,其本质上是 “一次性输入缓冲区”

既然全量保留不可行,那自然会引出下一个问题:

如果不能无脑堆上下文,那我们到底该保留什么?

这正是下一章要解决的核心问题 —— 从 “被动堆积上下文” 转向 “主动管理上下文”。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐