大模型知识之上下文

本文介绍了大模型知识的“上下文”

空城雀

606人浏览 · 2025-12-24 17:26:57

空城雀 · 2025-12-24 17:26:57 发布

文章目录

一、原理基础-何为上下文
- 组成部分
- 发展
二、工作原理与价值
三、实例理解
三、常用大模型的上下文设置
- - 主流大模型上下文长度

上一轮工业革命已成历史，这一轮智能革命正在眼前。
我们正见证历史，关注我，一起学习大模型。

一、原理基础-何为上下文

上下文指的是模型在处理当前请求时，所能“看到”或“记住”的所有文本信息的总和。你可以把它想象成模型的短期工作记忆区或当前对话的“背景板”。

模型生成下一个词或回答你的问题时，完全依赖于它在这个“上下文窗口”内看到的内容进行推理和预测。

组成部分

一个典型的上下文通常包含以下几个部分：

系统提示：这是对话开始前预设的指令，用于设定模型的角色、行为和回答风格。例如：“你是一个乐于助人且简洁的AI助手。”
历史对话记录：当前轮次之前的所有用户提问和模型回复。
用户当前查询：你刚刚提出的问题或指令。
可能的额外信息：你通过文件上传、长文本粘贴等方式提供给模型的额外知识（例如，一篇研究报告、一段代码），这些也会被纳入上下文。

发展

这是衡量模型能力的关键指标，通常以 Token 数为单位（可以粗略理解为词或字的分片）。

含义：指模型单次处理所能支持的最大文本总量，包括系统提示、历史对话和当前输入等所有内容。

发展：早期模型（如 GPT-3）只有几千个 Token 的上下文。如今，先进模型（如 GPT-4 Turbo、Claude 3、DeepSeek等）的上下文长度已达到 128K、200K 甚至 100 万 Token 级别。

128K Token 大约相当于一本300页的书。

1M Token 则相当于数本长篇小说的体量。

二、工作原理与价值

信息关联：上下文使得模型能理解指代关系。当你问“他刚才说了什么？”，模型需要从上下文中找到“他”指的是谁。

任务延续：对于长文档分析、多轮编程、创作长文等任务，模型需要依赖完整的上下文来保持一致性、遵循指令和延续风格。

知识注入：通过将外部文档、数据作为上下文输入，你可以在不重新训练模型的情况下，让它基于这些新信息进行回答（即检索增强生成的核心思想）。

三、实例理解

第一次提问（轮次1）：
您的输入：Q1
实际发送给模型的上下文：[系统指令] + Q1
模型输出：A1
后端记录：将 Q1 和 A1 保存到本次会话的“历史记录”中。

第二次提问（轮次2）：
您的输入：Q2
后端操作：从“历史记录”中取出 Q1 和 A1，与 Q2 拼接。
实际发送给模型的上下文：[系统指令] + Q1 + A1 + Q2
模型输出：A2
后端记录：将 Q2 和 A2 追加到“历史记录”中。

第N次提问（轮次N）：
您的输入：QN
后端操作：取出所有历史记录 (Q1, A1, Q2, A2, …, Q(N-1), A(N-1))，与 QN 拼接。
实际发送给模型的上下文：[系统指令] + 全部历史 + QN
模型输出：AN

但注意这个上下文不是大模型主动自己记住的，而是存储到数据库，再传递给大模型的

三、常用大模型的上下文设置

好的，这是精简后的可复制表格：

主流大模型上下文长度

模型名称	上下文长度 (Token)	参考说明
通义千问 2.5	128K - 1000万	主力模型128K，多模态版支持超长图文。
文心一言 (ERNIE)	128K - 1000万汉字	官方称具备百万字长文本处理能力。
GPT-4 Turbo	128K	当前广泛使用的长上下文标准版。
Claude 3	200K	约15万英文单词，长文档分析突出。
DeepSeek	128K	主流开源模型的标准长度。
智谱GLM-4	128K	其核心版本的标准上下文能力。
Kimichat	约200K	早期以长上下文为特色。
腾讯混元	32K - 128K	具体长度依不同版本而定。

注：数据源于各厂商2024年公开信息，具体以最新为准。用户无法自行修改该数值，直接输入长文本即可使用对应能力。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

费雪的行业领导者投资法

费雪的行业领导者投资法的目的在于帮助投资者识别具有长期增长潜力的行业领导者企业，并通过投资这些企业的股票实现资产的增值。该投资法的范围涵盖了各个行业，旨在寻找那些在行业中具有竞争优势、良好的财务状况和创新能力的企业。通过对这些企业的深入分析和评估，投资者可以做出更明智的投资决策，降低投资风险，提高投资回报率。核心概念与联系：介绍费雪的行业领导者投资法的核心概念，包括行业领导者的定义、特点以及该投资