必收藏！大模型7个核心专业术语解析（小白/程序员入门必备）

Token 可以理解为语言的最小计量单位，是大语言模型理解和处理文本的基本单位（可以直观地认为是“一个词”）。Tokenizer（分词器）作用是当你输入自然语言文本时，模型第一步不是直接处理原始字符，而是先把文本拆成token对中文来说，通常一个汉字或一个词可以算作一个 token，但也可能按分词规则拆成更小的单位。对英文来说，一个 token 不一定等于一个完整单词，有时是单词的一部分，甚至可能

耿直学编程

264人浏览 · 2026-02-08 10:45:00

耿直学编程 · 2026-02-08 10:45:00 发布

本文详细拆解大模型入门必懂的7个核心专业术语，包括Token（语言最小计量单位）、Embedding（token向量化表示）、上下文长度（模型能处理的连续token数量）、提示词工程（引导模型行为的输入内容）、RAG（结合外部知识检索的技术）、微调（提升模型特定场景效果的方法）以及模型路由（将请求分配到最合适模型的机制）。不管你是刚接触大模型的小白，还是想夯实基础的程序员，吃透这些概念，就能快速理解大模型的工作原理，更高效地使用、优化大模型应用，建议收藏备用！

1. Token（词元）

当你在浏览各大模型的官网或准备调用其 API 时，都会看到“价格”这一部分。大多数厂商的 API 定价是按 token 数量计费的，常见的计量单位是 1M tokens（即100万个 tokens）。在 OpenAI 的 API 中，费用会区分不同类型的 token，比如 文本 token（Text tokens）、图像生成与处理 token（Image tokens）、音频处理 token（Audio tokens） 等，调用时会根据实际消耗的 token 数量来收费。需要注意的是，API 调用的计费方式和 ChatGPT 产品的订阅模式并不相同：前者是按使用量精确计费，后者则是按月订阅或套餐形式收费。

什么是 Token？

Token 可以理解为 语言的最小计量单位，是大语言模型理解和处理文本的基本单位（可以直观地认为是“一个词”）。Tokenizer（分词器）作用是当你输入自然语言文本时，模型第一步不是直接处理原始字符，而是先把文本拆成 token：

对中文来说，通常一个汉字或一个词可以算作一个 token，但也可能按分词规则拆成更小的单位。
对英文来说，一个 token 不一定等于一个完整单词，有时是单词的一部分，甚至可能只是一个字符。
对于大语言模型而言，分词（tokenization）是文本处理的第一步，它决定了后续 embedding 和模型理解的基本单元。

文本	分解 token（注意 Token ID，这与后续 embedding 密切相关）
我喜欢吃苹果	[“我”, “喜欢”, “吃”, “苹果”] → 4 tokens [10534, 23512, 876, 4312]
ChatGPT	[“Chat”, “G”, “PT”] → 3 tokens [1234, 567, 890]
人工智能	[“人工”, “智能”] → 2 tokens [4321, 8765]

注意，表格中的“ChatGPT”通常会被拆成 [“Chat”, “G”, “PT”] 这样的更小单元，这是因为 embedding 表中没有完整的 “ChatGPT” 词条，所以必须拆分成子词。英文单词比中文更容易出现这种拆分情况。

Token ID解释（后续embedding详细解释）

Token ID 是 tokenizer 输出的整数标识符，每个 token 都有一个唯一的 ID（上述表格中的ID是随便写的）。
这些 ID 是固定的，并不是随机生成的，而是由模型的 词表（vocabulary） 事先定义好的。
在大语言模型中，Token ID 会直接对应到 embedding 表中的行，也就是说每个 Token ID 会对应一个向量（embedding vector）。
因此，Token ID 和 embedding ID 是一一对应的，但严格来说，是通过词表和 embedding 表建立对应关系，而不是随意设计的。

2. Embedding（嵌入）

什么是Embedding？

Embedding就是根据token ID把每个token向量化。Embedding是一个词汇表，一个矩阵[NxM]，N是单词个数，M是每个单词的向量表示，比如OpenAI 提供的 text-embedding：

text-embedding-3-small → 1536 维
text-embedding-3-large → 3072 维

Embedding中每个单词的向量是通过训练使其词与词之间有一定的关系，比如同一类词语其向量相似度较高，不同类的词语相似度较低。维度M越大，每个 token 的向量表示就越“丰富”，能表达更多的语义特征，能更好地区分语义相近的 token，也能更细致地捕捉上下文信息。

t-SNE可视化词语嵌入（word embeddings）的语义关系，Embedding词语嵌入将语义相似的词语聚集在一起，形成清晰的语义簇。

Token 和 Embedding关系

下图图展示了自然语言文本如何转换成计算机模型能够处理的数值数据的过程。整个过程是这样的：

首先有一个句子比如"今天天气如何"，然后通过分词器（Tokenizer）将句子分解成更小的单位叫做tokens，比如"今天"、“天气”、"如何"等，每个token都会被分配一个唯一的数值ID，比如"今天"的Token ID是10348。
这些Token ID会被用来在嵌入表（Embedding Table）中查找对应的数值表示，也就是embeddings。这里很重要的是，每个词生成的Token ID直接对应着嵌入表中用来定位特定嵌入向量的ID，所以"今天"（Token ID 10348）会得到它独特的嵌入向量v1，"天气"会得到v2，"如何"会得到v3。
这些得到的嵌入向量会被传递给机器学习模型进行计算，让模型能够理解和处理文本内容。

训练模型之前，先定义好 tokenizer 的词汇表,每个 token 分配一个唯一 ID（token ID）,embedding 表初始化时，按照这个词汇表顺序生成对应向量（随机初始化或预训练向量），所以Token ID和Embedding ID是对应的。

按Tokens收费的原理

你会注意到，模型的参数实际上就是模型架构的一部分。当模型架构确定后，参数的规模也随之固定。在训练过程中，这些参数不断被更新，逐渐学习并存储了语言规律和知识。回顾上一篇，模型可类比：y=Ax+B

其中 A 和 B 就是参数。只不过在大模型中，这些参数的数量往往是数百亿、甚至上万亿级别。

在推理阶段，有些模型采用了 激活参数（Activated Parameters） 的机制，也就是说并不是所有参数都会在一次计算中被调用，而是只有一部分参数在处理输入 token 时被激活并参与计算。

这与传统的 稠密（Dense）模型 不同：

Dense 模型：推理时几乎所有参数都会参与计算，消耗资源更大。
稀疏激活（MoE, Mixture of Experts）模型：推理时只激活少部分参数，显著降低推理成本。

这正是 DeepSeek 等模型能够降低使用成本的原因。

因此，计算成本主要取决于：输入 token 数量 + 被激活的参数规模。这也是为什么很多大模型的计费方式是基于 token 数量，因为 token 数既能反映输入规模，也能间接体现实际的算力消耗。

公开模型参数示例

模型名称	总参数量（Total Params）	激活参数量（Activated Params）	架构类型	最大上下文长度
GPT-3	175B	175B（Dense，全激活）	Dense	2K
LLaMA-2-70B	70B	70B（Dense，全激活）	Dense	4K
Qwen-72B	72B	72B（Dense，全激活）	Dense	32K
DeepSeek-R1	671B	37B（MoE，仅部分激活）	MoE	128K

上述表格中可以看到，对于同一输入，某些模型会对 所有参数 都进行计算（即 Dense 模型），而另一些模型则采用 专家模型（Mixture-of-Experts, MoE） 的机制，只激活与输入最相关的参数进行计算。专家模型通过分析输入内容，判断哪些子模型（专家）最适合处理当前输入，从而仅计算这些被激活的参数，提高计算效率，同时保持模型的表达能力。

说明：

B表示Billion，表示十亿，175B代表1750亿个参数。

Dense 模型（GPT-3, LLaMA, Qwen）：推理时调用全部参数 → 每个 token 都要计算完整参数。

MoE 模型（Mistral-MoE, DeepSeek）：推理时只激活少部分专家参数 → 总参数规模大，但实际激活参数小 → 单 token 成本更低。

3 上下文长度（Context Length）

上下文长度（Context Length）指的是模型在一次推理或训练中，能够“看到”的连续 token 数量。简单来说，它决定了模型在生成下一个 token 时，能够参考多少之前的文本信息。上下文长度越长，模型可以捕捉的上下文信息就越多，有助于理解长段文本或保持多轮对话的连贯性。比如

GPT-3 的上下文长度是 2K token，意味着它一次只能处理约 2000 个 token 的内容。
GPT-4 可以支持更长的上下文，比如 8K 或 32K token，GPT-4 Turbo支持128K，GPT-4o支持200K，从而在长文档理解或长对话中表现更好。

当你向 ChatGPT 输入一句话，比如“帮我解释一下大模型。”时，这句话会被送入大模型进行处理。模型会根据输入生成第一个 token（比如“好”），然后将原始输入和已生成的 token 作为新的输入，再生成下一个 token（比如“的”）。这个过程会不断循环：每次模型都会把用户输入和之前生成的内容一并作为新的上下文，预测下一个 token，直到生成完整回答。

在这个循环中，模型能“记住”的最大输入长度由 上下文长度（Context Length） 决定。如果输入加上已生成内容超过了上下文长度，模型会采用类似滑动窗口的方式，把最前面超出的部分舍弃，只保留最近的一段上下文来继续生成。

通俗理解就是：模型每次生成一个词时，都参考“你说的内容 + 它自己已经生成的内容”，直到回答完成，而它一次能看到的文字是有限的，这个限制就是上下文长度。

4 提示词工程 Prompt

Prompt，中文通常称作“提示词”，是指在使用大模型时，为模型提供的输入内容或指令。它告诉模型你希望它完成的任务或回答的方式。

简单示例：用户输入 "帮我介绍一下大模型。"，这句话就是一个 prompt。
模型接收到 prompt 后，会根据提示生成对应的回答。

Prompt 的作用

引导模型行为：通过不同的提示词，可以让模型生成不同风格或方向的内容。
控制输出质量：精心设计的 prompt 能帮助模型生成更准确、更符合预期的回答。
扩展功能：复杂的 prompt 可以包含任务说明、角色设定、格式要求，甚至涉及 function call（函数调用），实现更复杂的操作。

使用技巧：

基础大模型通常是通用型的：开源的大模型一般是训练在广泛数据上的基础模型，理解力和表达能力较强，但不一定专注于某一垂直领域。
通过 Prompt 引导模型专注垂直领域：如果希望模型在特定领域（如医学、法律、机器人技术）输出高质量内容，需要设计更有针对性的 prompt，引导模型关注相关知识或行为模式。
复杂 Prompt：当任务涉及函数调用、表格生成、多轮对话等功能时，prompt 可能非常复杂，这部分内容可以在后续章节中详细介绍。

5 向量库RAG

RAG 是一种将 大模型生成能力 与 外部知识检索 结合的技术框架。它通过在生成文本前或生成过程中，动态检索相关信息，让模型不仅依赖自身训练参数，还能引用外部数据，从而生成更准确、专业和上下文相关的回答。

工作流程：

用户输入 Prompt 用户给模型一个提示词，比如 "帮我写一篇关于机器人控制算法的科普文章"。
向量检索 模型或系统将 Prompt 转换为 embedding，然后在向量库中检索与之最相关的文档或片段。
增强生成 检索到的内容与原始 Prompt 一起输入大模型，让模型生成回答或文本，输出结果中包含更多专业知识或上下文信息。

简化理解：RAG 就像模型有了“随时可以翻阅百科或文档”的能力，而不是只靠自己记忆的知识作答。

RAG 是大模型在实际应用中非常重要的一种增强技术，它将 Prompt 引导、向量检索和模型生成 有机结合，使模型生成的内容更加丰富、专业和可靠。特别在垂直领域内的应用。

6 模型微调（Fine-tuning）

为什么需要微调

在大模型应用中，通常我们会先尝试通过 Prompt 工程 和 RAG（检索增强生成） 来引导模型完成任务。

Prompt：通过设计合理的提示词，尽可能让模型理解和执行需求。
RAG：在模型回答时结合外部知识库，增强模型的知识范围和专业性。

但是在一些场景下，即便使用了 Prompt 和 RAG，模型的性能仍然达不到预期：

模型对某些领域的专业知识理解不够深入；
模型的表达风格与业务需求有差距；
任务需要模型掌握新的知识，而这些知识在训练语料中很少或不存在。

这时，就需要在现有大模型的基础上，进行 微调（Fine-tuning）。

什么是微调

微调的核心思想是：

在大模型已经学习了大量通用知识的前提下，
通过采集并构建一个 新的训练数据集（通常是垂直领域的数据），
对模型的部分参数进行再训练，
让模型学习新的模式、知识或任务。

相比从头训练一个模型，微调的计算成本和数据需求要低得多，同时又能显著提升模型在特定场景下的效果。

7 模型路由

在大型模型应用中，往往会存在多个在基础大模型之上微调得到的 领域专用模型。为了让用户请求能够被分配到最合适的模型，需要一个 模型路由器 来负责调度。从工程角度看，模型路由器的主要职责包括：

解析输入

对用户请求进行语义解析、分类和关键词提取。
例如：“火车站排队情况” → 属于客流/交通领域。

选择目标模型

根据用户意图和置信度，选择对应的专家模型。
若置信度较低，则回退到 通用大模型 + RAG 兜底，以避免答非所问。

控制流转

将请求转发到目标模型，并记录路由日志，便于后续追踪与优化。

结果融合

对于需要多个领域模型协同的问题（如“地铁施工对火车站客流的影响” → 涉及交通模型和施工模型），路由器负责调用多个模型并融合结果。

总结：模型路由器就像“大脑的分配中心”，决定每一个问题应该交给哪位“专家模型”处理，同时在不确定时交给通用模型兜底。和路由器的功能类似，不过 模型路由器是纯软件逻辑，它并不是硬件设备，而是部署在系统里的一个组件，用来解析用户请求 → 判断归属 → 分配给合适的专家模型 → 返回结果。

如果能够把城市里的各类数据都汇聚并打通，就能构建起一个“数字孪生”的物理世界。例如：当你准备停车时，只需要问一句：“附近哪里有空余的停车位？周边交通情况如何？” 系统就能即时调用：

停车场数据 → 返回最近的可用车位及余量；
交通监测数据 → 告诉你周边道路的拥堵情况；
视频监控流/传感器数据 → 生成一张实时的场景图，帮助你直观了解环境；
大模型分析能力 → 对交通态势和出行建议进行解释说明。

这样，AI 不仅是回答“文字上的问题”，而是真正调动物理世界里的实时数据、传感器和图像，把虚拟智能和现实世界打通。

这正是 OpenAI 的 Sam Altman 所说的“让大模型链接物理世界”：大模型不再只是“文本对话工具”，而是成为人和真实世界之间的智能接口。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026，豆包微笑曲线横扫AI应用市场，开启霸主新征程！

2048 AI社区

【大模型学习推理】 profile 学习

SGLang 服务器接收到一个请求，并将其与其他请求批处理后，在一个采用张量并行的多 GPU 环境中，执行 Qwen3-MoE 模型的一个 Transformer 层的计算。关键步骤是：调度与分发：SGLang 调度器将请求交给一个 Tensor Parallelism Worker。进入模型层：代码执行进入 Qwen3-MoE 模型的一个 Decoder Layer。MoE 路由与通信。