N-gram的平滑算法简介

N-gram作为统计语言模型的重要部分，是学习统计自然语言的重要基石，了解N-gram十分重要。N-gram会因为数据稀疏而导致效果变差，也就是某些n元组在训练样本中未出现，则其样本概率为0，这是一个很差的概率估计，会导致模型估计效果变差，可以通过数据平滑来解决数据稀疏问题。

C@1M1n9

1064人浏览 · 2023-03-21 11:45:40

C@1M1n9 · 2023-03-21 11:45:40 发布

1、N-gram存在的问题

2、平滑算法

2.1 加法平滑

2.1.1 Laplace平滑

通过给每个n元组都加1，实现将一小部分概率转移到未知事件上，公式如下：
$P_{Lap}(w_1,...,w_n)=\frac{C(w_1,...,w_n)+1}{N+B}$
其中， $N$ 为总样本数， $B$ 为 $n$ 元组的总数。这样做其实是假设每个 $n$ 元组都存在相同的先验概率。但是对于一个大词表的稀疏数据集，Laplace平滑就会将太多的概率转移到了未知事件上。

2.1.2 Lidstone平滑

针对Laplace平滑存在的过估计问题，Lidstone不加1，而加一个通常较小的正值 $λ\lambda$ ：
$P_{Lid}(w_1,...,w_n)=\frac{C(w_1,...,w_n)+\lambda}{N+B\lambda}$
它可以看作是在MLE估计和统一的先验概率之间的线性插值，这样可以解决太多的概率空间被转移到未知时间上的缺点。但是这种方法依然存在着两个缺点：1）需要预先猜测一个合适的 $λ\lambda$ ；2）使用Lidstone法则的折扣总是在MLE频率上给出一个线性的概率估计，但是这和低频情况下的经验分布不能很好地吻合。

2.2 Good-Turing估计

Good-Turing估计是很多平滑技术的核心，于1953年古德（I.J.Good）引用图灵（Turing）的方法而提出来的。其基本思想是：利用频率的类别信息来平滑频率。对于任何出现 $r$ 次的 $n$ 元组，都假设它出现了 $r^*$ 次。
$r^∗=(r+1)\frac{n_{r+1}}{n_r}$
其中， $n_r$ 是训练语料中正好出现 $r$ 次的 $n$ 元组的个数，也就是说，发生 $r$ 次的 $n$ 元组的调整由发生 $r$ 次的 $n$ 元组与发生 $r + 1$ 次的 $n$ 元组两个类别共同决定。假设m-gram的 $w_1^m$ 出现了 $c(w_1^m)$ 次，Good_Turing给出其出现的概率为：
$P_{GT}(w_1^m)=\frac{c^*(w_1^m)}{N}$
那么对于 $c = 0$ （训练样本中未出现）的样本有：
$p0=1-\sum\limits_{c>0}N_c*p_c=1-\frac{1}{N}\sum\limits_{c>0}N_c*c^*=\frac{N_1}{N}$
因此仍然有 $N1N\frac{N_1}{N}$ 的概率余量分配给未出现的元组。

2.3 Katz回退

n-gram允许回退（back off）到越来越短的历史上，它的思路就是如果一个n-gram的条件概率为0，则用(n-1)-gram的条件概率取代，如果(n-1)-gram的条件概率依然为0，继续回退，直到1-gram概率，如果1-gram依然为0，就直接忽略掉该词。

2.4 线性插值

unigram的插值：
$P(w_t)=\lambda P_{ML}(w_t)+(1-\lambda)\frac{1}{N}\\ P_{ML}(w_t)=\frac{c(w_t)}{N}$
bigram的插值：
$P(w_t|w_{t-1})=\lambda P_{ML}(w_t|w_{t-1})+(1-\lambda)P(w_t)\\ P_{ML}(w_t|w_{t-1})=\frac{c(w_{t-1},w_t)}{\sum_{w_t}c(w_{t-1},w_t)}$

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Java SpringBoot+Vue3+MyBatis 安康旅游网站系统源码｜前后端分离+MySQL数据库

2048 AI社区

AI营销专家榜单：原圈科技如何定义下半场“真玩家“？

当技术的光环褪去，市场的检验变得前所未有的严苛。一个真正的AI营销领导者，无论是个人专家还是服务商企业，都不再能仅凭一个炫酷的算法或单一的SaaS工具就赢得客户的尊重。新的专家标准，是体系化能力与商业成果的有机结合。

2048 AI社区

原圈科技AI营销专家韩剑：不懂AI营销，将错失2026增长先机

传统营销的核心考核指标（KPI）往往围绕着曝光量、点击率、线索量等短期效果。韩剑认为,在AI时代,营销的价值将被重新定义。每一次与客户的互动,每一次内容的生成,每一次数据的分析,都不仅仅是为了完成一次性的转化,更是在构建和沉淀企业的核心数字资产。这些资产包括：经过AI标注和分析的客户数据库、可被AI随时调用和再创新的内容素材库、以及不断学习和进化的企业专属知识库。到2026年,衡量营销成功的标准,