收藏必学】大模型入门第一课：AI如何读懂你的语言？揭秘分词(Tokenization)的奥秘

本文介绍了大模型理解语言的第一步——分词(Tokenization)。分词将文本切分为有意义的语义单元，是AI处理语言的基础。文章对比了传统基于词典的方法和现代子词切分技术，后者通过将词语拆分为有意义的"子词积木"，有效解决了未登录词问题和语义关联问题。理解分词原理不仅有助于掌握大模型工作原理，还能让我们明白模型计费和性能衡量的基本单位。

datian1234

374人浏览 · 2025-11-16 07:30:00

datian1234 · 2025-11-16 07:30:00 发布

前言

当我们向AI提问时，无论是“今天天气不错”，还是“帮我写一段代码”，你是否想过，机器是如何理解这些由文字组成的句子的？毕竟，计算机的世界里只有0和1。

从我们熟悉的文字，到机器能够处理的数字，中间横跨着一道至关重要的桥梁。今天，我们就来揭开这道桥梁的神秘面纱，探索大模型认知语言的基石——语言的数字化表示，并聚焦于这其中的第一个关键步骤：分词 (Tokenization)。

1、为什么要分词？AI的“备菜”环节

想象一下，我们的大脑在阅读“今天天气不错”时，会很自然地将其理解为“今天”、“天气”、“不错”这三个有意义的单元。

这个将连续的文本，切分成一个个独立“语义单元”的过程，就是分词。

如果说整个AI处理语言的过程是一场盛大的烹饪，那么分词，就是最开始的**“备菜”环节**。它将原始、连续的文本“食材”，处理成一个个大小适中、方便后续“烹饪”的词元（Token）。

为什么不直接一个字一个字地处理？

这可能是最符合直觉的想法，比如把“今天天气不错”拆成“今”、“天”、“天”、“气”、“不”、“错”。但这种方式会带来两个致命问题：

语义的迷失

单个汉字往往有多种含义。在“今天”里，“天”指“一昼夜”；而在“天气”里，“天”则指“气候”。如果只看单个的“天”，AI就会感到困惑。英文中这个问题更严重，把“Apple”拆成“A-p-p-l-e”，字母本身几乎不携带任何意义。

效率的瓶颈

一个字一个字地拆，序列会变得非常长，这会极大地增加模型的计算负担，让AI的思考变得异常缓慢。

因此，我们需要一种更高效的单元——词语，或者说Token。

| 什么是Token？

在大模型领域，Token 就是分词后得到的基本语义单元。它通常是一个词（如“天气”），有时也可能是一个字（如“的”）或一个符号。

划重点：Token不仅是技术概念，它和你的钱包息息相关！

衡量大模型生成速度的单位是 Token/秒。
我们调用大模型API的费用，也是按处理的 Token数量来计算的。例如，某模型可能是“每百万Token输入4元，输出12元”。

理解了Token，你就理解了大模型计价和衡量性能的基本单位。

2、分词技术演进：从“查字典”到“拼积木”

那么，机器具体是如何实现分词的呢？这项技术也经历了一场有趣的演进。

基于词典

这是最古老也最直观的方法，核心思路很简单：

准备一本超级大的词典。

让机器拿着句子，从头开始在词典里找一个最长的、能匹配上的词。

我们用“乒乓球拍卖完了”这句话来举个例子。假设词典里有“乒乓”、“乒乓球”、“球拍”、“拍卖”、“完了”等词。

机器从第一个字“乒”开始，发现最长能匹配上的是“乒乓球”。好，切出第一个词。

接着处理剩下的“拍卖完了”。从“拍”开始，最长能匹配上的是“拍卖”。切出第二个词。

最后剩下“完了”，匹配词典，切出“完了”。

最终结果：“乒乓球” / “拍卖” / “完了”。

这种方法虽然简单，但有两个硬伤：

“贪心”的歧义

它很容易因为“贪图”最长的匹配而犯错。人类一看就知道应该是“乒乓球拍”/“卖完了”，但因为词典里没有“乒乓球拍”，算法就做出了错误的选择。

致命的“未登录词”

如果出现一个新词，比如“DeepSeek”，词典里根本没有。机器就会彻底懵掉，无法识别这个关键信息。

子词切分

为了解决上述问题，现代大模型普遍采用一种更聪明、更灵活的策略——基于子词（Subword）的分词。

它的核心思想是：不要把词语看成是不可分割的整体，而是看作由更小的、有意义的“子词”积木拼成的。

这种方法的好处是显而易见的：

轻松应对未知词

遇到不认识的“smartphone”，可以拆成认识的“smart”和“phone”来理解。

高效学习语义

像“learn”、“learning”、“learner”这些词，都可以共享“learn”这个积木块，模型能更快地理解它们之间的关联。

控制词典规模

我们不需要一本无限大的词典，只需要一套有限但高效的“积木块”，就能拼出几乎所有的词汇。

目前最主流的“拼积木”算法之一叫做BPE（字节对编码）。它的构建过程就像一个有趣的合并游戏：

初始阶段：把所有单词拆成最基本的字母。

迭代合并：在整个语料库里，找出出现频率最高的相邻组合，比如 u 和 g 总是同时出现，就把它们合并成一个新的积木块 ug。

不断重复：持续这个过程，不断合并，产生像 un、hug、 (代表单词结束) 这样的新积木块，直到积木库（词典）达到预设的大小。

通过这种方式，BPE算法为模型打造了一套极其强大且灵活的“词汇积木”，让模型既能认识常见词，又能理解生僻词和新词。

3、总结

今天，我们一起探寻了AI理解人类语言的第一步——分词。

我们了解到，分词就是将文本切分为Token的过程，它是后续所有处理的基础。我们还对比了两种主流技术：传统的“查字典”法和现代大模型普遍采用的“拼积木”法（子词分词）。

正是后者这种灵活的策略，才让今天的AI能够从容应对日新月异、千变万化的网络新词和专业术语。

当然，将文本切分成Token只是第一步。接下来，模型还需要将这些Token转化为包含丰富语义信息的数字向量（Embedding），这才是真正让机器“理解”语言内涵的关键。

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

但知道是一回事，做又是另一回事，初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性，在这基础上，找到高质量的学习资源，不浪费时间、不走弯路，又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式，可以更直观地展示过程，能有效提升学习兴趣和理解力，是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍（PDF）

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告（实时更新）

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从入门到资深：IntelliJ IDEA 2025.1 不同阶段开发者适配技巧

2048 AI社区

从零起步：LuatOS exgnss扩展库GNSS开发实战教程！

2048 AI社区

详解 Cursor 核心能力，代码库索引、AI 审查重构、隐私模式、模型选择、自定义 Rules、外部文档知识库、MCP 服务器配置

给 AI 设定「固定规则」，让其在所有项目中遵循统一的编码规范、技术栈偏好、输出格式，避免重复沟通，生成的代码直接符合你的需求。「代码库索引 + 外部文档知识库」解决 “AI 不懂你的项目 / 业务”；「AI 审查重构 + 自定义 Rules」解决 “代码质量低、不规范”；「隐私模式」解决 “敏感代码不敢用 AI”；「模型选择」解决 “不同场景适配不同 AI 能力”；「MCP 服务器」解决 “AI