大模型知识之上下文
本文介绍了大模型知识的“上下文”
上一轮工业革命已成历史,这一轮智能革命正在眼前。
我们正见证历史,关注我,一起学习大模型。
一、原理基础-何为上下文
上下文 指的是模型在处理当前请求时,所能“看到”或“记住”的所有文本信息的总和。你可以把它想象成模型的短期工作记忆区或当前对话的“背景板”。
模型生成下一个词或回答你的问题时,完全依赖于它在这个“上下文窗口”内看到的内容进行推理和预测。
组成部分
一个典型的上下文通常包含以下几个部分:
- 系统提示:这是对话开始前预设的指令,用于设定模型的角色、行为和回答风格。例如:“你是一个乐于助人且简洁的AI助手。”
- 历史对话记录:当前轮次之前的所有用户提问和模型回复。
- 用户当前查询:你刚刚提出的问题或指令。
- 可能的额外信息:你通过文件上传、长文本粘贴等方式提供给模型的额外知识(例如,一篇研究报告、一段代码),这些也会被纳入上下文。
发展
这是衡量模型能力的关键指标,通常以 Token 数为单位(可以粗略理解为词或字的分片)。
含义:指模型单次处理所能支持的最大文本总量,包括系统提示、历史对话和当前输入等所有内容。
发展:早期模型(如 GPT-3)只有几千个 Token 的上下文。如今,先进模型(如 GPT-4 Turbo、Claude 3、DeepSeek等)的上下文长度已达到 128K、200K 甚至 100 万 Token 级别。
128K Token 大约相当于一本300页的书。
1M Token 则相当于数本长篇小说的体量。
二、工作原理与价值
信息关联:上下文使得模型能理解指代关系。当你问“他刚才说了什么?”,模型需要从上下文中找到“他”指的是谁。
任务延续:对于长文档分析、多轮编程、创作长文等任务,模型需要依赖完整的上下文来保持一致性、遵循指令和延续风格。
知识注入:通过将外部文档、数据作为上下文输入,你可以在不重新训练模型的情况下,让它基于这些新信息进行回答(即 检索增强生成 的核心思想)。
三、实例理解
第一次提问(轮次1):
您的输入:Q1
实际发送给模型的上下文:[系统指令] + Q1
模型输出:A1
后端记录:将 Q1 和 A1 保存到本次会话的“历史记录”中。
第二次提问(轮次2):
您的输入:Q2
后端操作:从“历史记录”中取出 Q1 和 A1,与 Q2 拼接。
实际发送给模型的上下文:[系统指令] + Q1 + A1 + Q2
模型输出:A2
后端记录:将 Q2 和 A2 追加到“历史记录”中。
第N次提问(轮次N):
您的输入:QN
后端操作:取出所有历史记录 (Q1, A1, Q2, A2, …, Q(N-1), A(N-1)),与 QN 拼接。
实际发送给模型的上下文:[系统指令] + 全部历史 + QN
模型输出:AN
但注意 这个上下文不是大模型主动自己记住的,而是存储到数据库,再传递给大模型的
三、常用大模型的上下文设置
好的,这是精简后的可复制表格:
主流大模型上下文长度
| 模型名称 | 上下文长度 (Token) | 参考说明 |
|---|---|---|
| 通义千问 2.5 | 128K - 1000万 | 主力模型128K,多模态版支持超长图文。 |
| 文心一言 (ERNIE) | 128K - 1000万汉字 | 官方称具备百万字长文本处理能力。 |
| GPT-4 Turbo | 128K | 当前广泛使用的长上下文标准版。 |
| Claude 3 | 200K | 约15万英文单词,长文档分析突出。 |
| DeepSeek | 128K | 主流开源模型的标准长度。 |
| 智谱GLM-4 | 128K | 其核心版本的标准上下文能力。 |
| Kimichat | 约200K | 早期以长上下文为特色。 |
| 腾讯混元 | 32K - 128K | 具体长度依不同版本而定。 |
注:数据源于各厂商2024年公开信息,具体以最新为准。用户无法自行修改该数值,直接输入长文本即可使用对应能力。
更多推荐


所有评论(0)