本文详细解析了AI大模型中的Token概念,介绍了Token作为文本最小处理单元的定义、不同模型的分词算法(BPE、WordPiece等)、Token计算方法及实际应用场景。通过Tiktokenizer工具直观展示Token分割过程,并提供了代码示例帮助开发者准确计算Token使用量,对控制成本和优化上下文长度具有重要意义。


当我们与 ChatGPT 或其他大型语言模型(LLM)对话时,系统往往会告诉我们一个词:Token(标记)
无论是计费、上下文长度,还是推理速度,几乎所有关键指标都和它有关。

但问题是:

“Token 到底是什么?一个字、一个词,还是别的什么?”

其实,Token 是语言模型在理解和生成文本时的最小处理单元。它并不完全等同于字或词,而是介于两者之间的“子词(subword)”或“字节序列(byte sequence)”。
下面,我们就结合一个可视化例子,一步步拆解这个概念。

一、Token 是怎么被“切”出来的?

这是一款名为 Tiktokenizer 的工具,用来展示 OpenAI 模型(如 GPT-4o)在处理文本时是如何将输入分解为 Token 的。
左侧是对话内容:

System: You are a helpful assistant
User: LLM 中的 Token 是如何计算的?

右侧则展示了模型真正“看到”的内部结构,每个颜色块就是一个 token,对应底部的一串数字编号。
比如:

<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|>

这行其实已经包含了多个隐藏的特殊 token,用于表示:

  • 对话的角色(system、user、assistant)
  • 消息的起止位置(im_start、im_end)
  • 以及内容分隔符(im_sep)

最终,整条输入被编码为 26 个 token
这 26 个 token 的序列就是模型真正“看到”的输入,而不是原始文本。

二、Token 的“词典”:tokenizer.json

在开源模型(如 LLaMA、Mistral、BERT 等)中,模型的分词规则通常保存在名为 tokenizer.json 的文件中。
它定义了模型的词汇表和 token 映射关系,结构大致如下:

{
"version": "1.0",
"added_tokens": [
{
"id": 151643,
"content": "<|endoftext|>"
},
...
],
"model": {
"type": "BPE",
"vocab": {
"!": 0,
"\"": 1,
"#": 2,
"$": 3,
...
}
}
}

其中:

  • added_tokens:保存一些特殊符号(如句首 <|bos|>、句尾 <|eos|>、文本结束符 <|endoftext|> 等)。
  • model.type:指定分词算法类型(如 BPE、WordPiece、SentencePiece 等)。
  • vocab:模型的“词典”,key 是 token,value 是其对应的 ID。

三、模型是如何计算 Token 使用量的?

当你输入一段文字时,模型会依次执行以下步骤:

  1. 预处理
    对文本进行规范化(如大小写统一、去除多余空格、Unicode 归一化等)。

  2. 分词(Tokenization)
    按照模型的分词规则(如 BPE)将文本切分为最小的“可识别片段”。

  3. 统计
    计算切分后 token 的数量。
    例如:

    "ChatGPT 是什么?" → ["Chat", "G", "PT", " 是", "什么", "?"] → 共 6 个 token
    
  4. 添加特殊 token
    根据模型架构自动补充特殊标记(如 <|im_start|>、<|im_end|> 等),这些也会计入 token 数量。

⚠️ 注意:

  • 英文单词往往被拆成多个 token(例如 “intelligence” → [“intelli”, “gence”])
  • 中文则常以单字为单位(每个汉字通常对应 1~2 个 token)
  • 空格、标点、甚至换行符也会被单独计入 token!

四、不同模型的分词方式并不相同

模型 分词算法 特点
GPT 系列 BPE (Byte Pair Encoding) 基于字节的子词合并算法,兼容多语言
BERT / RoBERTa WordPiece 按词根和词缀切分,偏向英语
T5 / Flan SentencePiece 无需语言预分词,直接学习字符序列
LLaMA / Mistral BPE + 自定义特殊 token 优化多语言性能

因此,同一句话在不同模型中的 token 数可能相差很大。
这也是为什么调用不同模型 API 时,计费结果会不同的原因。

五、在服务中如何计算 Token 用量?

如果你在开发一个基于 LLM 的应用(比如聊天机器人、知识问答系统),通常需要实时计算 token 使用量以控制成本或上下文长度。

常见方法如下:

  1. 使用官方分词库
    例如:

    import tiktoken
    tokenizer = tiktoken.encoding_for_model("gpt-4o")
    tokens = tokenizer.encode("你好,今天心情怎么样?")
    print(len(tokens))  # 输出 token 数量
    
  2. 查看模型仓库中的 tokenizer.json
    自定义分词逻辑或验证分词一致性。

  3. 估算法(简易)
    若无 tokenizer,可粗略估计:

  • 中文文本:约 1 字 ≈ 2 token
  • 英文文本:约 1 词 ≈ 1.3 token

六、Token 与向量数据库的结合

在知识检索或 RAG(Retrieval-Augmented Generation)系统中,token 不仅用于计费,还决定了文本切块方式。

一般流程如下:
  1. 文档分块
    使用 tokenizer 控制每块不超过指定 token 数(如 512、1024)。
  2. Tokenization 处理
    确保与模型一致的分词方式。
  3. 向量化存储
    将每个块转化为向量并存入向量数据库(如 FAISS、Milvus、Chroma)。
  4. 检索与生成
    按相似度召回最相关块,再拼接进入模型上下文。

这样可以在保证语义完整性的同时,最大化利用上下文容量。

七、总结

概念 说明
Token 模型处理文本的最小单元(字节或子词)
Tokenizer 负责将文本拆分为 token 的工具
tokenizer.json 模型的分词词典与算法定义
Tiktokenizer 可视化 token 分割的工具
用途 计费、控制上下文长度、文本分块等

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐