大模型分词器vs传统中文分词：技术原理+实战案例，一篇让你收藏并彻底搞懂！

文章深入解析大模型分词器与传统中文分词的核心区别，包括子词切分算法、BM25检索敏感度对比、字节级BPE优势等。同时探讨大模型如何区分对话角色、处理工具调用、用户行为嵌入及一词多义问题，揭示静态词嵌入与上下文嵌入的差异与价值，为开发者提供全面的技术理解与实用指导。

大模型玩家

870人浏览 · 2025-11-23 09:15:00

大模型玩家 · 2025-11-23 09:15:00 发布

Q9：大模型的分词器和传统的中文分词有什么区别？对于一个指定的词表，一句话是不是只有一种唯一的分词方式？

传统的中文分词，是根据语法和语义规则，将连续的汉字序列切分成有意义的、独立的词汇单位。

使用字典匹配、统计模型、深度学习等方法，严重依赖预定义的词典和人工标注的分词语料。

大模型分词将文本高效、无歧义地转换为模型可处理的数字ID。不关心切分出的单元是否是一个词，只关心它是否是数据中常见的、有统计意义的子词单元。

主要使用WordPiece、 Unigram、字节对编码等子词切分算法，从训练语料中自动学习一个词表，不依赖人工词典。

Q10：为什么传统BM25检索对中文分词的质量很敏感，而大模型对分词器的选取不敏感？

BM25是一种用来计算搜索关键词和文档之间相关性的算法。它帮搜索引擎在海量文档中，快速找出并排序那些最相关的文档。

它的成功严重依赖于一个基本假设：如果关键词与文档是相关的，那么它们应该包含一些相同的、重要的词。

而大模型对分词器的选取不敏感：

1）大模型不是通过表面的字符串匹配来判断相关性，而是通过深层的语义表示。

模型的注意力机制会同时关注输入序列中的所有Token，并为其生成一个融合了上下文的向量表示。

2）大模型的分词器本身就是子词级别的，本身就降低了OOV问题（Out-Of-Vocabulary，即未登录词问题）

3）大模型拥有数十亿甚至万亿的参数，并在海量数据上进行了训练。在这个过程中，它已经见识过同一个概念被以多种不同的分词方式呈现的情况。

因此，它对分词的一些细微变化不那么敏感，因为它有强大的能力进行内部校准和语义消歧。

Q11：GPT-4、Llama等现代大模型采用的字节级BPE分词器相比传统的BPE分词器有什么优点？

传统的的BPE分词器，通常在字符级别或预处理后的单词级别上运行。它有一个核心问题：它只能处理训练时见过的字符。

对于训练语料中未出现过的字符、表情符号、其他语言的文字或任何新的符号，它完全无法处理。

另外，传统BPE在处理多语言混合文本时，词表分配会非常不均衡。高频语言（如英语）会占据大量词表空间，而低频语言的字符可能因为出现次数少而无法形成有效的子词。

字节级BPE的核心优点：

1）任何可以用UTF-8编码的文本字节级BPE分词器都能处理，实现真正的“零OOV”

2）字节级BPE在语言在起点上都是平等的，模型可以更公平地在不同语言间共享字节级的子词单元。

Q12：国内预训练的大模型与海外模型相比，是如何做到用相对更少的词元表达中文语料的？

通过以下三个方向：
1）词表优化：扩充中文字符与子词；尝试利用汉字本身的字形和部首信息，构建更细粒度的词表
2）创新与改进分词算法：采用字节级BPE
3）注重中文训练数据与策略：采用大规模中文预训练

Q13：大模型是如何区分聊天历史中用户说的话和AI说的话的？

在大模型训练过程中，它被喂入了大量带有特定格式的对话数据，这些数据通常包含明确的角色标识。因此，模型学会了一种模式：当输入文本以某种特定结构呈现时，它就应该以对应的角色身份来回应。

例如OpenAI的通用格式如下：

• system：设定AI的助手角色和背景、行为准则。这是对话的“初始设定”。
• user：代表用户说的话。
• assistant：代表AI模型之前的历史回复。

Q14：大模型做工具调用的时候，输出的工具调用参数是如何与文本回复区分开来的？

1）结构化输出格式：最常用的方法，模型被训练成输出特定的结构化格式。
2）特殊标记分隔：使用明确的开始和结束标记来标识工具调用部分
3）基于训练的策略：在训练阶段通过特定的格式教导模型，在输入阶段包含工具描述和用户问题，在输出阶段要求遵循特定格式区分文本和工具调用

Q15：使用什么数据作为“句子”的等价物？如何将用户行为融入嵌入模型？

在自然语言处理中，一个“句子”是一个有序的单词序列，它表达了一个连贯的语义概念。

要将这个思想迁移到其他领域，我们需要找到一种结构上类似“句子”的数据单元。这个数据单元应该由一系列离散的“事件”或“物品” 按时间顺序或逻辑顺序排列而成。

为什么序列这么重要？

• 上下文信息：就像句子中“国王”和“王后”经常出现在相似语境中一样，商品“手机”和“手机壳”也经常在同一个购物会话中出现。模型能学到这种共现关系。
• 顺序信息：顺序蕴含了偏好和意图的演变。用户先看相机再看镜头，与先看镜头再看相机，可能代表了不同的意图强度或知识水平。

有了“句子”，就可以用各种模型来学习嵌入。融入用户行为的方式主要有以下几种策略，从简单到复杂：

策略一：直接学习物品嵌入

• 如何融入行为：
1）将每个用户的行为序列（如上文的“句子”）作为训练样本。
2）模型的目标是：给定序列中的一个目标物品，预测其上下文物品
• 结果：通过这种方式，模型学习到的物品嵌入向量，天然就编码了所有用户群体的集体行为模式。
• 优点：简单高效
• 缺点：无法体现个性化

策略二：学习用户和物品的联合嵌入

• 如何融入行为：
1）用户模型：输入是用户的特征，如历史交互物品的ID、人口统计学信息等。输出是用户嵌入向量。
2）物品模型：输入是物品的特征，如物品ID、类别、标签等。输出是物品嵌入向量。
3）训练目标：让正样本（用户实际交互过的物品）的用户向量和物品向量在向量空间中的点积（或余弦相似度）尽可能大；让负样本（用户未交互过的物品）的点积尽可能小。
• 结果：模型同时学到了用户的兴趣嵌入和物品的属性嵌入。推荐时，只需计算目标用户向量与所有候选物品向量的相似度，取最高的即可。
• 优点：实现了真正的个性化推荐
• 缺点：需要明确的负样本，且对于新用户（冷启动）问题较大。

策略三：使用序列模型动态捕捉用户兴趣

• 如何融入行为：
1）将用户的行为序列（按时间排序）直接输入模型中
2）模型的最终隐藏状态，或者最后一个位置的输出，就代表了这个用户当前的兴趣状态向量。
3）训练目标通常是预测用户下一个会交互的物品
• 结果：用户嵌入不再是固定的，而是根据其最近的行为历史动态生成的。它能更好地反映用户的即时意图。
• 优点：能捕捉兴趣的动态变化和长期依赖关系，非常适合会话式推荐。
• 缺点：计算成本更高，需要更长的序列数据。

策略四：通过对比学习利用更丰富的行为信号

• 数据增强：从一个用户序列中，通过掩码、裁剪、重排等方式创建两个不同的样本序列，这两个被增强的序列称为一个正样本对
• 训练目标：通过编码器（如Transformer）将这两个序列映射为两个向量，然后通过一个对比损失函数，让正样本对的向量相互靠近，而与其他用户序列的向量（负样本）相互远离。
• 结果：模型学会了如何忽略噪声和无关行为，提取出用户序列中最核心、最稳定的兴趣表示。它非常擅长利用大量的无标签用户行为数据。
• 优点：对数据噪声更鲁棒，能学习到非常高质量的嵌入
• 缺点：模型设计和训练过程更复杂。

Q16：word2vec的训练过程中，负例的作用是什么？

1）提供对比信号，正例告诉模型哪些词应该相似，负例告诉模型哪些词应该不相似
2）降低计算成本。提供了好与坏的相对性，避免对所有像本进行筛查
3）构建有效训练目标，将多分类问题转化为二分类

Q17：传统的静态词嵌入（如word2vec）与大模型产生的与上下文相关的嵌入相比，有什么区别？有了与上下文相关的嵌入，静态词嵌入还有什么价值？

区别：
1）无论上下文如何，静态词嵌入只有一个向量，而上下文相关嵌入根据上下文有不同的向量
2）上下文嵌入可以处理一词多义
3）静态词嵌入训练目标是预测相邻词语，而上下文嵌入旨在理解全局语义关系

尽管上下文嵌入更强大，但静态词嵌入在以下场景中仍有不可替代的价值
1）资源有限时候，尝试轻量级解决方案
2）特定领域专业化词语，专业领域术语关系更准确，歧义少
3）易于可视化与分析
4）作为大模型的补充输入，静态嵌入提供词汇级语义，上下文嵌入提供句子级语义

Q18：与上下文相关的嵌入是如何解决一词多义问题的，如技术语境下，英文token可能表示词元、代币、令牌？

与静态词向量不同，上下文嵌入是动态生成的。同一个词在不同的句子中，会产生完全不同的向量表示。

模型根据计算出的注意力权重，将所有上下文词的信息加权求和，并聚合在[token]的表示中。

经过多层Transformer的处理后，不同句子中的[token]向量中，不同的语义会被不断加强。

Q19：在word2vec等词嵌入空间中，存在king - man + woman ≈ queen的现象，这是为什么？大模型的词元嵌入空间是否也有类似的属性？

这个这个现象被称为“词汇类比”或“语义向量运算”。字面意思理解就是“国王减去男人加上女人等于王后”。

“国王” 的核心属性之一是“男性统治者”。所以，从“国王”的向量中减去“男人”的向量，在某种意义上是在剥离“男性”这个属性，得到一个关于“统治者”或“君主”的核心概念向量。

当我们把这个“统治者”的核心概念，再加上“女性”这个属性，自然就得到了“女性统治者”的概念，也就是“王后”。

以上内容之所以成立，是因为“国王”和“王后”出现的上下文非常相似（都与“皇室”、“统治”、“国家”等词共现）。它们的主要区别就在于性别，而“男人”和“女人”的向量恰好编码了这种性别差异。

Word2vec 的嵌入空间不仅编码了词语的相似性，还编码了词语之间多种多样的关系（如性别、动词时态、国家-首都等），这些关系可以被建模为向量空间中的线性平移。

大模型的词元嵌入空间也有类似的属性，但更复杂、更隐晦，并且通常不像 Word2vec 那样以纯粹的线性方式呈现。感兴趣的可以尝试自己和大模型对话尝试输入一下这些公式。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

还在为数据孤岛、指标打架而头疼？DataAgent“七层妖塔”一招制敌！

2048 AI社区

Oxpitan Implementation Notes: A Nonprofit Site Built for Trust

First-person nonprofit build report using Oxpitan to raise trust, streamline campaigns, and improve donations.

2048 AI社区

AI5 - 构建自愈式测试体系：AI驱动的持续质量保障

2048 AI社区

所有评论(0)

查看更多评论

大模型玩家

@2401_85375186

已为社区贡献398条内容