语音中常用输入特征的提取过程：MFCC、FBank

声纹识别中常用输入特征的提取过程：MFCC、FBank介绍梅尔(Mel)频率掩蔽效应和临界带宽Mel滤波器MFCC提取流程1.预加重2.加窗3.DFT4.Mel滤波5.DCT变换Fbank提取流程总结介绍要了解 MFCC 的提取流程，我们先复习一下一些相关知识。梅尔(Mel)频率梅尔频率为人耳所感知到的声音频率。当音频的物理频率 fff 在1kHz 以下，其梅尔频率 Mel(f)Mel(f)Mel

ly41811

2897人浏览 · 2021-05-19 15:20:05

ly41811 · 2021-05-19 15:20:05 发布

介绍
MFCC提取流程
Fbank提取流程
总结

介绍

要了解 MFCC 和 Fbank 的提取流程，先简单介绍一下梅尔频率、临界带宽、梅尔滤波器等相关知识。

梅尔(Mel)频率

梅尔频率为人耳所感知到的声音频率。当音频的物理频率 $f$ 在1kHz 以下，其梅尔频率 $M e l (f)$ 与 $f$ 近似为线性关系，而在1kHz 以上则近似为对数关系。两者的对应关系可用下式来近似：
$Mel(f)=1127{\rm ln} (1+f/700)$
在 $f >$ 1kHz 时，对数曲线如下：

曲线斜率逐渐减小，即改变相同的 $f$ ，在频率较低处的 $M e l (f)$ 变化更大，而在频率较高处的 $M e l (f)$ 变化更小，因此人耳对较低频率更为敏感，而对较高频率更为不敏感。

掩蔽效应和临界带宽

当两个声音的频率差小于某个带宽 $W$ 时，人耳无法分辨而把两个声音听成一个的现象称为掩蔽效应， $W$ 则称为临界带宽。当声压恒定时，一段音频的频率在临界带宽内变化，人耳所感知到的只是该带宽中心频率的一个纯音，而无法感知其频率变化。
根据前面的分析，人耳对较低频率更为敏感，因此较低频率处的掩蔽效应较弱，临界带宽更小；而频率较高处的掩蔽效应更强，临界带宽更大。（这里说的临界带宽是在物理频率刻度下，梅尔频率刻度下临界带宽是一直不变的，因此梅尔频率更符合人的听觉感知）

Mel滤波器

Mel滤波器是一组三角形滤波器，每个滤波器都是在一个临界带宽内的带通滤波器，由于临界带宽随着频率越来越大，因此滤波器组由密到疏，且带宽内中心频率的响应要大，两边响应要小。
进行滤波时，每个带通滤波器 $j$ 和信号幅度的加权和 $m_j$ 为该滤波器的输出，若有 $p$ 个滤波器，则可提取到 $p$ 维的特征 $m_1, m_2, ..., m_p]$ 。
(至于为什么是三角形的，我觉得也可以换成别的，只要是带通即可)