QDKT2-2-大模型是如何推理生成答案的

经过多轮调整，最后一个Token（如“案”）的向量，已经编码了“下一个Token应该是什么”的信息——这是大模型预训练的核心目标：“看前面的文字，猜下一个字是什么”。Token 是大模型处理文字的“最小积木”—— 把完整的句子按统一规则“切碎”后，得到的一个个最小单位（可以是单个字、多个字组成的词，甚至是标点符号）。只有把文字变成数字（向量），大模型才能进行“比较”和“计算”——比如判断两个Tok

m0_73724698

683人浏览 · 2026-02-10 20:01:12

m0_73724698 · 2026-02-10 20:01:12 发布

一、引言

1. 课程重要性

这是学习大模型最核心、最关键的一节课——只有看懂大模型“怎么干活”，才能真正用好它（比如写提示词、规避风险）。虽然是整套课程中最难的一节，但已做极致简化：剔除所有数学公式、编程代码，纯用通俗语言+类比+实例讲解。

二、基础认知：传统AI vs 生成式AI（大模型）

核心结论：两者的工作逻辑完全不同，学习大模型需彻底摒弃传统AI的思维定式。

对比维度	传统AI（判别式/规则式）	生成式AI（大模型）
核心逻辑	「匹配答案」—— 从知识库找相似问题的现成答案	「生成答案」—— 基于规律续写内容，无现成答案
依赖条件	必须有结构化、清洗干净的知识库	无知识库，只有预训练学到的“规律”（参数）
输出特点	只能输出已有答案，死板无创新；未匹配到问题则无法回答	全新生成内容，可创新；无“答不出”的情况（除非触发限制）
输出形式	直接返回完整答案	一个字一个字（Token）续写生成

实例对比

传统AI：问“团建活动方案怎么写？”，会在知识库中找“团建方案”相关的现成文档返回；若知识库没有，就回复“无法解答”。

大模型：问“团建活动方案怎么写？”，会先分析“团建活动方案”的规律，再顺着规律逐字续写，生成全新的方案内容。

三、核心基础：Token（大模型的“最小计算单元”）

1. 什么是Token？

Token 是大模型处理文字的“最小积木”—— 把完整的句子按统一规则“切碎”后，得到的一个个最小单位（可以是单个字、多个字组成的词，甚至是标点符号）。

2. Token的切分规则

切分依据：大模型内置的“词表”（相当于一本固定的字典），规定了哪些字/词要拆、哪些要合并；

核心要求：切分规则固定，不能随意更改（比如不能这次把“帮”单独切，下次把“帮我”切在一起）；

实例：以“帮我策划一个团建活动方案”为例（按Deepseek/ChatGPT切分逻辑）：

切分结果：帮（Token1）、我（Token2）、策（Token3）、划（Token4）、一（Token5）、个（Token6）、团（Token7）、建（Token8）、活（Token9）、动（Token10）、方（Token11）、案（Token12）

注意：不同大模型的词表不同，切分结果可能有差异（比如有的模型会把“团建”合并为1个Token）。

3. Token与汉字/单词的关系

不是“一对一”对应：1个Token可能是1个汉字（如“帮”），也可能是多个汉字（如部分模型的“团建”）；

中文换算比例（关键！）：1个中文字符≈0.6个Token；反过来，1个Token≈1.5-2个中文字符；

实用估算：100万Token≈150-200万个中文字符（按2倍估算更稳妥）；

为什么要关注换算？：大模型的使用（如API调用）通常按Token计费，知道换算比例能估算成本和内容长度。

4. 不同大模型的词表差异

词表大小不同：比如Deepseek V3的词表有129280个Token（包含中英文、数字等）；

切分逻辑不同：但对零基础学员来说，无需关注具体差异——核心是记住“Token是最小计算单元”即可。

四、文字的“数字化魔法”：向量嵌入（Embedding）

大模型是“数学大脑”，只能处理数字——向量嵌入就是把Token（文字）变成数字的过程。

1. 用类比理解：给“人”数字化

问题：小张、小王、小刘，谁更像小李？

解决思路：找2个衡量维度（智商、情商），给每个人打分（数据化）；

具体数据：

小李：智商180，情商30

小张：智商30，情商180

小王：智商40，情商170

小刘：智商170，情商40

数字化结果：把4个人放到“智商（横轴）-情商（纵轴）”的坐标中，每个人都有唯一的“坐标位置”；

对比逻辑：坐标中两点距离越近（连线夹角越小），越相似——小刘和小李更像，小张和小王更像。

2. Token的数字化：向量嵌入

核心逻辑：给每个Token也找“衡量维度”，并打分，最终让每个Token都有唯一的“坐标位置”；

关键细节：

维度数量：不同大模型的维度不同（如Deepseek有7168个维度），这些维度是大模型“自己定义”的，人类无法理解（不是词性、使用频率等人类能感知的维度）；

数字化结果：每个Token的7168个维度得分，会组成一个“向量”（相当于坐标），这个过程就是“嵌入”——把Token“镶”进数字空间；

参数的由来：所有Token的向量（7168个维度×12万+词表大小），构成了大模型的核心参数（几十亿、上千亿参数的本质就是这些数字）。

3. 为什么要做向量嵌入？

只有把文字变成数字（向量），大模型才能进行“比较”和“计算”——比如判断两个Token是否相关、距离有多远。

五、大模型的“思考”过程：注意力机制+并行计算

大模型生成内容的核心逻辑，和玩“狼人杀”完全一样！我们以“帮我策划一个团建活动方案”为例，拆解完整流程。

1. 准备阶段：Token化+向量嵌入

第一步：把输入句子“帮我策划一个团建活动方案”切分成12个Token（如前所述）；

第二步：给每个Token做向量嵌入，让每个Token都有自己的“坐标位置”（7168个维度的数字）。

2. 核心环节：多轮“狼人杀游戏”（注意力机制）

每个Token相当于“狼人杀玩家”，整个过程分多轮进行（轮数=大模型的“层数”，如8层、16层），每一轮的规则如下：

（1）第一轮：天亮请睁眼

行动1：每个Token“看向前方”——只关注自己前面的所有Token（比如Token3“策”，能看到Token1“帮”和Token2“我”）；

行动2：找“最相关的玩家”——通过计算向量距离，判断前面哪个Token和自己最相关（比如Token3“策”认为Token2“我”更相关）；

行动3：调整自己的“状态”——根据最相关Token的向量，修改自己的部分维度得分（比如Token2“我”的某维度得分是7，调整为5），让自己和相关Token更“合拍”；

关键特点：并行计算——所有Token同时行动，不是排队进行（这就是大模型需要显卡的原因：CPU扛不住大量并行计算，显卡擅长此任务）。

（2）隐藏状态：中间缓存

每个Token调整后的得分，不会直接覆盖原始向量，而是存在“隐藏状态”（相当于缓存）——方便下一轮调整时参考。

（3）多轮迭代：重复“天亮-调整”

第二轮：所有Token基于上一轮的“隐藏状态”，再次看向前方、找相关Token、调整自己的得分；

后续轮次：重复上述操作，直到完成所有层数（如16层）；

核心效果：每一轮调整后，后面的Token会逐渐“吸收”前面所有Token的信息——比如最后一个Token“案”，经过16轮调整后，其向量已经包含了“帮我策划一个团建活动方案”的所有诉求、逻辑和规律。

3. 关键结果：最后一个Token的“使命”

经过多轮调整，最后一个Token（如“案”）的向量，已经编码了“下一个Token应该是什么”的信息——这是大模型预训练的核心目标：“看前面的文字，猜下一个字是什么”。

六、Token的“续写游戏”：大模型如何生成下一个字？

当最后一个Token的向量确定后，大模型就开始生成下一个Token，流程如下：

1. 第一步：匹配词表

大模型拿着最后一个Token的向量，去内置词表中找“最相似的向量”（通过计算向量夹角大小判断）；

理想情况：找到完全匹配的向量，直接输出对应的Token；

常见情况：没有完全匹配的向量，就从“Top3最相似”的Token中选一个。

2. 第二步：随机选择（大模型的“致命漏洞”）

大模型会从Top3相似Token中随机选一个输出（比如选了“书”“计划”“方案”中的“计划”）；

蝴蝶效应：这个随机选择会直接影响后续所有生成——选“计划”和选“方案”，下一轮的调整逻辑完全不同，最终生成的内容可能天差地别。

3. 第三步：循环续写

新生成的Token（如“计划”）会加入到原始输入中，变成“帮我策划一个团建活动方案计划”；

大模型重新开始“Token化→向量嵌入→多轮调整→匹配词表→随机选择”的流程，生成下一个Token；

重复循环，直到大模型判断“没有下一个Token需要生成”（即所有词表中的Token都和最后一个向量不相似），生成过程结束。

实例：生成过程可视化

输入：帮我策划一个团建活动方案

第一轮生成：计划（随机从Top3中选择）

新输入：帮我策划一个团建活动方案计划

第二轮生成：主题（基于新输入的多轮调整后选择）

新输入：帮我策划一个团建活动方案计划主题

第三轮生成：户外拓展（继续循环）

... 直到生成完整方案

七、大模型的“小缺点”：固有漏洞与弊端

1. 漏洞1：输出全靠“运气”（随机选择）

核心问题：每一轮生成Token时的随机选择，导致同一问题可能生成完全不同的答案；

衍生问题：如果第一次选择的Token就“走偏”（比如输入“团建方案”，却选了“葬礼”相关Token），后续生成会一直偏，无法修正（起点决定全程）。

2. 漏洞2：极度消耗算力

原因1：并行计算需要高性能显卡（如英伟达GPU），CPU无法支撑；

原因2：生成越长的内容，需要循环的轮次越多（每轮都要处理所有Token），算力消耗呈线性增长；

表现：生成大段文字（如万言书）、复杂代码时，会出现卡顿、输出变慢。

3. 漏洞3：无法保证准确性

因为是“猜着生成”，不是“查知识库”，大模型可能生成看似合理但实际错误的内容（比如虚假数据、错误逻辑）；

关键提醒：大模型的输出是“符合规律的续写”，不是“绝对正确的答案”。

八、总结

1. 核心知识点回顾

知识点	核心结论
传统AI vs 大模型	传统AI“找答案”，大模型“生答案”
Token	最小计算单元，1Token≈1.5-2个中文字符
向量嵌入	把文字变成数字（向量），方便计算
注意力机制	Token间“互相关注”，并行调整状态
生成逻辑	多轮调整→匹配词表→随机选择→循环续写
核心漏洞	随机选择、算力消耗、准确性无法保证

学习小贴士

遇到难懂的概念，多回想“狼人杀”“坐标打分”的类比；

不用死记硬背参数（如7168维度、12万词表），理解核心逻辑即可；

多尝试用大模型生成内容（如写短文、提问题），结合本节课知识观察它的“续写痕迹”（比如是否一个字一个字输出）。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

定稿前必看！一键生成论文工具千笔写作工具 VS 灵感ai

2048 AI社区

OpenClaw AI女友全球爆火，单日吸粉60万！国内版详细部署教程来了

2048 AI社区

Agent Skills 核心笔记_20260212095535

Agent Skills 是模块化的能力扩展包，通过封装指令、元数据和资源（脚本/模板/文档）来增强 AI Agent 的功能。每个 Skill 采用三层渐进式加载机制：基础元数据始终加载，核心指令在任务匹配时加载，详细资源按需调用。Skill 与 MCP 协议的主要区别在于前者提供完整的任务处理能力，后者仅定义工具调用规范。用户可通过 Claude Code 环境安装 Skill，支持自动/手动