【超详细+收藏】大模型术语详解：从Token到模型路由，小白/程序员必学指南

这篇文章用通俗语言解释了大模型的核心术语，包括Token（语言的最小计量单位）、Embedding（token向量化）、上下文长度（模型能处理的连续token数量）、提示词工程（对模型的输入指令）、RAG（结合外部知识检索的技术）、模型微调（针对特定领域再训练）和模型路由（将请求分配给最合适的模型）。掌握这些概念能帮助用户更好地理解和使用大模型，提高应用效果。

小涂Ss

315人浏览 · 2025-09-15 16:47:12

小涂Ss · 2025-09-15 16:47:12 发布

前言

当你真正使用ChatGPT、文心一言这些产品时，可能会遇到一些"专业术语"，比如Token、Embedding、微调等等。

这篇文章会用最通俗的语言，帮你理解这些看似复杂的概念，可以让你更好地使用大模型。

1. Token（词元）

当你在浏览各大模型的官网或准备调用其 API 时，都会看到“价格”这一部分。大多数厂商的 API 定价是按 token 数量计费的，常见的计量单位是 1M tokens（即100万个 tokens）。在 OpenAI 的 API 中，费用会区分不同类型的 token，比如 文本 token（Text tokens）、图像生成与处理 token（Image tokens）、音频处理 token（Audio tokens） 等，调用时会根据实际消耗的 token 数量来收费。需要注意的是，API 调用的计费方式和 ChatGPT 产品的订阅模式并不相同：前者是按使用量精确计费，后者则是按月订阅或套餐形式收费。

什么是 Token？

Token 可以理解为 语言的最小计量单位，是大语言模型理解和处理文本的基本单位（可以直观地认为是“一个词”）。Tokenizer（分词器）作用是当你输入自然语言文本时，模型第一步不是直接处理原始字符，而是先把文本拆成 token：

对中文来说，通常一个汉字或一个词可以算作一个 token，但也可能按分词规则拆成更小的单位。
对英文来说，一个 token 不一定等于一个完整单词，有时是单词的一部分，甚至可能只是一个字符。
对于大语言模型而言，分词（tokenization）是文本处理的第一步，它决定了后续 embedding 和模型理解的基本单元。

文本	分解 token（注意 Token ID，这与后续 embedding 密切相关）
我喜欢吃苹果	[“我”, “喜欢”, “吃”, “苹果”] → 4 tokens [10534, 23512, 876, 4312]
ChatGPT	[“Chat”, “G”, “PT”] → 3 tokens [1234, 567, 890]
人工智能	[“人工”, “智能”] → 2 tokens [4321, 8765]

注意，表格中的“ChatGPT”通常会被拆成 [“Chat”, “G”, “PT”] 这样的更小单元，这是因为 embedding 表中没有完整的 “ChatGPT” 词条，所以必须拆分成子词。英文单词比中文更容易出现这种拆分情况。

Token ID解释（后续embedding详细解释）

Token ID 是 tokenizer 输出的整数标识符，每个 token 都有一个唯一的 ID（上述表格中的ID是随便写的）。
这些 ID 是固定的，并不是随机生成的，而是由模型的 词表（vocabulary） 事先定义好的。
在大语言模型中，Token ID 会直接对应到 embedding 表中的行，也就是说每个 Token ID 会对应一个向量（embedding vector）。
因此，Token ID 和 embedding ID 是一一对应的，但严格来说，是通过词表和 embedding 表建立对应关系，而不是随意设计的。

2. Embedding（嵌入）

什么是Embedding？

Embedding就是根据token ID把每个token向量化。Embedding是一个词汇表，一个矩阵[NxM]，N是单词个数，M是每个单词的向量表示，比如OpenAI 提供的 text-embedding：

text-embedding-3-small → 1536 维
text-embedding-3-large → 3072 维

Embedding中每个单词的向量是通过训练使其词与词之间有一定的关系，比如同一类词语其向量相似度较高，不同类的词语相似度较低。维度M越大，每个 token 的向量表示就越“丰富”，能表达更多的语义特征，能更好地区分语义相近的 token，也能更细致地捕捉上下文信息。

t-SNE可视化词语嵌入（word embeddings）的语义关系，Embedding词语嵌入将语义相似的词语聚集在一起，形成清晰的语义簇。

Token 和 Embedding关系

下图图展示了自然语言文本如何转换成计算机模型能够处理的数值数据的过程。整个过程是这样的：

首先有一个句子比如"今天天气如何"，然后通过分词器（Tokenizer）将句子分解成更小的单位叫做tokens，比如"今天"、“天气”、"如何"等，每个token都会被分配一个唯一的数值ID，比如"今天"的Token ID是10348。
这些Token ID会被用来在嵌入表（Embedding Table）中查找对应的数值表示，也就是embeddings。这里很重要的是，每个词生成的Token ID直接对应着嵌入表中用来定位特定嵌入向量的ID，所以"今天"（Token ID 10348）会得到它独特的嵌入向量v1，"天气"会得到v2，"如何"会得到v3。
这些得到的嵌入向量会被传递给机器学习模型进行计算，让模型能够理解和处理文本内容。

训练模型之前，先定义好 tokenizer 的词汇表,每个 token 分配一个唯一 ID（token ID）,embedding 表初始化时，按照这个词汇表顺序生成对应向量（随机初始化或预训练向量），所以Token ID和Embedding ID是对应的。

按Tokens收费的原理

你会注意到，模型的参数实际上就是模型架构的一部分。当模型架构确定后，参数的规模也随之固定。在训练过程中，这些参数不断被更新，逐渐学习并存储了语言规律和知识。回顾上一篇，模型可类比：y=Ax+B

其中 A 和 B 就是参数。只不过在大模型中，这些参数的数量往往是数百亿、甚至上万亿级别。

在推理阶段，有些模型采用了 激活参数（Activated Parameters） 的机制，也就是说并不是所有参数都会在一次计算中被调用，而是只有一部分参数在处理输入 token 时被激活并参与计算。

这与传统的 稠密（Dense）模型 不同：

Dense 模型：推理时几乎所有参数都会参与计算，消耗资源更大。
稀疏激活（MoE, Mixture of Experts）模型：推理时只激活少部分参数，显著降低推理成本。

这正是 DeepSeek 等模型能够降低使用成本的原因。

因此，计算成本主要取决于：输入 token 数量 + 被激活的参数规模。这也是为什么很多大模型的计费方式是基于 token 数量，因为 token 数既能反映输入规模，也能间接体现实际的算力消耗。

公开模型参数示例

模型名称	总参数量（Total Params）	激活参数量（Activated Params）	架构类型	最大上下文长度
GPT-3	175B	175B（Dense，全激活）	Dense	2K
LLaMA-2-70B	70B	70B（Dense，全激活）	Dense	4K
Qwen-72B	72B	72B（Dense，全激活）	Dense	32K
DeepSeek-R1	671B	37B（MoE，仅部分激活）	MoE	128K

上述表格中可以看到，对于同一输入，某些模型会对 所有参数 都进行计算（即 Dense 模型），而另一些模型则采用 专家模型（Mixture-of-Experts, MoE） 的机制，只激活与输入最相关的参数进行计算。专家模型通过分析输入内容，判断哪些子模型（专家）最适合处理当前输入，从而仅计算这些被激活的参数，提高计算效率，同时保持模型的表达能力。

说明：

B表示Billion，表示十亿，175B代表1750亿个参数。

Dense 模型（GPT-3, LLaMA, Qwen）：推理时调用全部参数 → 每个 token 都要计算完整参数。

MoE 模型（Mistral-MoE, DeepSeek）：推理时只激活少部分专家参数 → 总参数规模大，但实际激活参数小 → 单 token 成本更低。

3 上下文长度（Context Length）

上下文长度（Context Length）指的是模型在一次推理或训练中，能够“看到”的连续 token 数量。简单来说，它决定了模型在生成下一个 token 时，能够参考多少之前的文本信息。上下文长度越长，模型可以捕捉的上下文信息就越多，有助于理解长段文本或保持多轮对话的连贯性。比如

GPT-3 的上下文长度是 2K token，意味着它一次只能处理约 2000 个 token 的内容。
GPT-4 可以支持更长的上下文，比如 8K 或 32K token，GPT-4 Turbo支持128K，GPT-4o支持200K，从而在长文档理解或长对话中表现更好。

当你向 ChatGPT 输入一句话，比如“帮我解释一下大模型。”时，这句话会被送入大模型进行处理。模型会根据输入生成第一个 token（比如“好”），然后将原始输入和已生成的 token 作为新的输入，再生成下一个 token（比如“的”）。这个过程会不断循环：每次模型都会把用户输入和之前生成的内容一并作为新的上下文，预测下一个 token，直到生成完整回答。

在这个循环中，模型能“记住”的最大输入长度由 上下文长度（Context Length） 决定。如果输入加上已生成内容超过了上下文长度，模型会采用类似滑动窗口的方式，把最前面超出的部分舍弃，只保留最近的一段上下文来继续生成。

通俗理解就是：模型每次生成一个词时，都参考“你说的内容 + 它自己已经生成的内容”，直到回答完成，而它一次能看到的文字是有限的，这个限制就是上下文长度。

4 提示词工程 Prompt

Prompt，中文通常称作“提示词”，是指在使用大模型时，为模型提供的输入内容或指令。它告诉模型你希望它完成的任务或回答的方式。

简单示例：用户输入 "帮我介绍一下大模型。"，这句话就是一个 prompt。
模型接收到 prompt 后，会根据提示生成对应的回答。

Prompt 的作用

引导模型行为：通过不同的提示词，可以让模型生成不同风格或方向的内容。
控制输出质量：精心设计的 prompt 能帮助模型生成更准确、更符合预期的回答。
扩展功能：复杂的 prompt 可以包含任务说明、角色设定、格式要求，甚至涉及 function call（函数调用），实现更复杂的操作。

使用技巧：

基础大模型通常是通用型的：开源的大模型一般是训练在广泛数据上的基础模型，理解力和表达能力较强，但不一定专注于某一垂直领域。
通过 Prompt 引导模型专注垂直领域：如果希望模型在特定领域（如医学、法律、机器人技术）输出高质量内容，需要设计更有针对性的 prompt，引导模型关注相关知识或行为模式。
复杂 Prompt：当任务涉及函数调用、表格生成、多轮对话等功能时，prompt 可能非常复杂，这部分内容可以在后续章节中详细介绍。

5 向量库RAG

RAG 是一种将 大模型生成能力 与 外部知识检索 结合的技术框架。它通过在生成文本前或生成过程中，动态检索相关信息，让模型不仅依赖自身训练参数，还能引用外部数据，从而生成更准确、专业和上下文相关的回答。

工作流程：

用户输入 Prompt 用户给模型一个提示词，比如 "帮我写一篇关于机器人控制算法的科普文章"。
向量检索 模型或系统将 Prompt 转换为 embedding，然后在向量库中检索与之最相关的文档或片段。
增强生成 检索到的内容与原始 Prompt 一起输入大模型，让模型生成回答或文本，输出结果中包含更多专业知识或上下文信息。

简化理解：RAG 就像模型有了“随时可以翻阅百科或文档”的能力，而不是只靠自己记忆的知识作答。

RAG 是大模型在实际应用中非常重要的一种增强技术，它将 Prompt 引导、向量检索和模型生成 有机结合，使模型生成的内容更加丰富、专业和可靠。特别在垂直领域内的应用。

6 模型微调（Fine-tuning）

为什么需要微调

在大模型应用中，通常我们会先尝试通过 Prompt 工程 和 RAG（检索增强生成） 来引导模型完成任务。

Prompt：通过设计合理的提示词，尽可能让模型理解和执行需求。
RAG：在模型回答时结合外部知识库，增强模型的知识范围和专业性。

但是在一些场景下，即便使用了 Prompt 和 RAG，模型的性能仍然达不到预期：

模型对某些领域的专业知识理解不够深入；
模型的表达风格与业务需求有差距；
任务需要模型掌握新的知识，而这些知识在训练语料中很少或不存在。

这时，就需要在现有大模型的基础上，进行 微调（Fine-tuning）。

什么是微调

微调的核心思想是：

在大模型已经学习了大量通用知识的前提下，
通过采集并构建一个 新的训练数据集（通常是垂直领域的数据），
对模型的部分参数进行再训练，
让模型学习新的模式、知识或任务。

相比从头训练一个模型，微调的计算成本和数据需求要低得多，同时又能显著提升模型在特定场景下的效果。

7 模型路由

在大型模型应用中，往往会存在多个在基础大模型之上微调得到的 领域专用模型。为了让用户请求能够被分配到最合适的模型，需要一个 模型路由器 来负责调度。从工程角度看，模型路由器的主要职责包括：

解析输入

对用户请求进行语义解析、分类和关键词提取。
例如：“火车站排队情况” → 属于客流/交通领域。

选择目标模型

根据用户意图和置信度，选择对应的专家模型。
若置信度较低，则回退到 通用大模型 + RAG 兜底，以避免答非所问。

控制流转

将请求转发到目标模型，并记录路由日志，便于后续追踪与优化。

结果融合

对于需要多个领域模型协同的问题（如“地铁施工对火车站客流的影响” → 涉及交通模型和施工模型），路由器负责调用多个模型并融合结果。

总结：模型路由器就像“大脑的分配中心”，决定每一个问题应该交给哪位“专家模型”处理，同时在不确定时交给通用模型兜底。和路由器的功能类似，不过 模型路由器是纯软件逻辑，它并不是硬件设备，而是部署在系统里的一个组件，用来解析用户请求 → 判断归属 → 分配给合适的专家模型 → 返回结果。

如果能够把城市里的各类数据都汇聚并打通，就能构建起一个“数字孪生”的物理世界。例如：当你准备停车时，只需要问一句：**“附近哪里有空余的停车位？周边交通情况如何？”**系统就能即时调用：

停车场数据 → 返回最近的可用车位及余量；
交通监测数据 → 告诉你周边道路的拥堵情况；
视频监控流/传感器数据 → 生成一张实时的场景图，帮助你直观了解环境；
大模型分析能力 → 对交通态势和出行建议进行解释说明。

这样，AI 不仅是回答“文字上的问题”，而是真正调动物理世界里的实时数据、传感器和图像，把虚拟智能和现实世界打通。

这正是 OpenAI 的 Sam Altman 所说的“让大模型链接物理世界”：大模型不再只是“文本对话工具”，而是成为人和真实世界之间的智能接口。

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。