一文读懂 n-grams：大模型出现前，语言模型就靠它

在深度学习时代之前，让机器理解人类语言是一个巨大的挑战。早期的AI系统面对文本时，就像一个完全不懂中文的外国人看一本中文小说——每个字都认识，但组合起来就懵了。

华农DrLai · 2026-03-02 09:47:03 发布

什么是n-grams语言模型？

🚀 本文收录于Github：AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助，欢迎 ⭐ Star 支持！

第一个问题是词汇的不确定性。 同一个发音可能对应多个词，比如"shi"可以是"是"、“事”、“市”、"试"等等。如果只看单个词，根本无法确定正确含义。

第二个问题是语义的上下文依赖。 语言的理解高度依赖上下文。比如"苹果很好吃"和"苹果发布了新手机"中的"苹果"完全是两个概念。没有上下文，机器无法判断。

为了解决这些问题，研究者们想到了一个朴素但有效的思路：用统计规律来捕捉语言的模式。既然人类说话写字有一定的习惯和规律，那么通过分析大量文本，就能发现哪些词经常一起出现，哪些组合更合理。

这就是n-grams语言模型诞生的背景——它不试图理解语言的深层含义，而是通过统计"词与词之间的共现规律"来预测和生成语言。
在这里插入图片描述

n-grams语言模型是一种基于统计的简单但有效的语言建模方法。它的核心思想非常直观：一个词出现的概率，取决于它前面的若干个词。

这里的"n"表示考虑的词的数量：

举个例子，假设我们要计算句子"我喜欢吃苹果"的概率。

用bigram模型的话，我们会这样计算：

用trigram模型的话，则是：

可以看到，n越大，模型能捕捉的上下文信息就越多，但也需要更多的数据来准确估计概率。
在这里插入图片描述

n-grams模型的训练过程其实很简单：数数。

假设我们有一个巨大的语料库（比如所有维基百科文章），我们遍历整个语料库，统计每种n-gram出现的次数。

比如统计bigram：

那么我们可以估计：

这样，当模型看到"我"这个词时，就知道接下来更可能是"喜欢"而不是"讨厌"。

现实中的问题是：不可能在训练数据中看到所有的词组合。比如"我爱吃榴莲"可能在训练数据中一次都没出现过，但这并不意味着这个句子不合理。

如果直接用最大似然估计，未出现的n-gram概率就是0，这会导致整个句子的概率变成0，显然不合理。

所以n-grams模型需要平滑技术，给未见过的组合分配一个小的非零概率。常见的平滑方法包括：

训练好的n-grams模型本质上就是一个巨大的查找表。对于每个可能的(n-1)-gram前缀，存储所有可能的下一个词及其概率。

比如前缀"我喜欢"对应的可能是：

这种结构虽然简单，但在实际应用中非常高效。
在这里插入图片描述