Alexa语音识别:RNN-T与说话人识别新突破
作为专注于语音技术的最大规模会议,Interspeech 长期以来一直是展示来自某机构Alexa的自动语音识别(ASR)最新研究的舞台。今年,Alexa研究人员在会议上发表了12篇ASR论文。来源:“Efficient minimum word error rate training of RNN-transducer for end-to-end speech recognition”
作为专注于语音技术的最大规模会议,Interspeech 长期以来一直是展示来自某机构Alexa的自动语音识别(ASR)最新研究的舞台。今年,Alexa研究人员在会议上发表了12篇ASR论文。
RNN-T ASR系统架构图。Xt表示当前声学信号帧。Yu-1表示与前一帧对应的输出子词序列。 来源:“Efficient minimum word error rate training of RNN-transducer for end-to-end speech recognition”
其中一篇论文《Speaker identification for household scenarios with self-attention and adversarial training》报告了语音团队在说话人识别方面的最新创新,即识别在给定时间点多个可能的说话人中哪一位在说话。另外两篇论文——《Subword regularization: an analysis of scalability and generalization for end-to-end automatic speech recognition》和《Efficient minimum word error rate training of RNN-transducer for end-to-end speech recognition》——探讨了如何提高使用循环神经网络转换器(RNN-T)架构的语音识别器的质量。Alexa ASR负责人在Interspeech的主题演讲中强调了这两个领域——说话人识别和RNN-T在ASR中的应用——作为Alexa科学团队近年来取得快速进展的领域。
说话人识别
说话人识别系统使语音代理能够将内容个性化地推送给特定客户,通常依赖循环神经网络或卷积神经网络,这两种网络都能跟踪语音信号在短时间跨度内的一致性。在《Speaker identification for household scenarios with self-attention and adversarial training》中,某机构应用科学家Ruirui Li及其在某机构、加州大学洛杉矶分校和圣母大学的同事转而使用注意力机制来识别语音信号中更长期的一致性。
在接收序列输入的神经网络(如语音处理器)中,注意力机制决定序列中的哪些其他元素应影响网络对当前元素的判断。语音信号通常被划分为帧,这些帧表示在短时间内不同声音频率下的功率集中度。对于给定的发声,Li及其同事的模型将每一帧表示为自身和话语中所有其他帧的加权和。权重取决于帧之间频率特性的相关性;相关性越大,权重越大。
这种表示法的优点在于捕捉每帧传达的说话者声音的独特属性,同时抑制那些单个帧特有的、不太能代表说话者整体声音的偶然属性。这些表示传递给一个神经网络,该网络在训练过程中学习哪些属性是说话者身份的最佳指标。最后,该网络的序列输出(每帧一个)被平均在一起,以生成整个话语的快照。将这些快照与存储的配置文件进行比较,以确定说话者的身份。
Li及其同事还使用了一些其他技巧来提高系统的可靠性,例如对抗训练。在测试中,研究人员将他们的系统与四个先前的系统进行了比较,发现其说话人识别的准确率全面更高。与四个基线中表现最好的相比,该模型在训练数据中包含其话语的说话者上,识别错误率降低了约12%,在新遇到的说话者上,识别错误率降低了约30%。
RNN-T架构
另一对论文探讨了如何提高使用日益流行的循环神经网络转换器(RNN-T)架构的语音识别器的质量。RNN-T按顺序处理输入序列,使得每个输入对应的输出都考虑了其之前的输入和输出。
一系列可能的输入语音子词分割,以及每种分割的概率。 来源:《Subword regularization: an analysis of scalability and generalization for end-to-end automatic speech recognition》
在ASR应用中,RNN-T接收声学语音信号的帧,并输出文本——即子词或单词组件的序列。例如,对应于口语单词"subword"的输出可能是子词"sub"和"_word"。训练模型输出子词可以保持网络规模较小,也使模型能够处理不熟悉的输入,模型可能能够将不熟悉的输入分解为熟悉的组件。
在该架构中,时间t的输入(当前输入语音帧)传递给编码器网络,该网络提取对语音识别有用的声学特征。同时,当前不完整的输出子词序列传递给预测网络,其输出指示序列中下一个子词可能的语义属性。这两个表示(当前帧的编码和下一个子词可能的语义属性)传递给另一个网络,该网络基于这两个表示确定输出序列中的下一个单词。
新进展
《Subword regularization: an analysis of scalability and generalization for end-to-end automatic speech recognition》由应用科学家Egor Lakomkin及其在某机构的同事撰写,研究了模型中子词的正则化,即强制提高单词分割为子词时的一致性。在实验中,研究人员表明,在训练过程中使用同一语音转录的多种分割,可以将基于5000小时语音数据训练的模型的ASR错误率降低8.4%。
《Efficient minimum word error rate training of RNN-transducer for end-to-end speech recognition》由应用科学家Jinxi Guo及其六位在某机构的同事撰写,研究了用于此类RNN-T ASR系统的一种新颖的损失函数(训练期间的评估标准)。在实验中,它将系统的错误率降低了3.6%至9.2%。
对于每个输入,RNN-T输出多个可能的解决方案(假设),并按概率排序。在ASR应用中,RNN-T通常经过训练,以最大化分配给输入语音正确转录的概率。然而,训练好的语音识别器的评判标准是其词错误率,即犯错误(误解、遗漏或错误插入)的比率。Jinxi Guo及其同事研究了直接训练RNN-T ASR系统以最小化词错误率的有效方法。
这意味着对于每个训练样本,最小化最有可能的假设的预期词错误。但计算这些假设的概率并不像听起来那么简单。这是因为完全相同的输出子词序列可以以不同的方式与输入帧序列对齐:例如,一个输出序列可能将同一个子词识别为比另一个输出序列早一帧或晚一帧开始。计算一个假设的概率需要对其所有对齐方式的概率求和。
解决这个问题的暴力方法在计算上是不切实际的。但Guo及其同事建议使用前向-后向算法,该算法利用对齐之间的重叠,存储可重复使用的中间计算结果。结果是一种计算效率高的算法,能够使各种RNN-T模型的错误率降低3.6%至9.2%。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
更多推荐



所有评论(0)