语音识别与合成的融合技术解析
随着今年Interspeech会议的临近,“生成式AI”已成为机器学习界和大众媒体的热门词汇,通常指合成文本或图像的模型。文本转语音(TTS)模型作为Interspeech的主要研究领域,在某种意义上一直是“生成式”的。但正如某机构Alexa AI组织的高级首席科学家所解释的,TTS也已被新的生成式AI范式重塑。
Interspeech:语音识别与合成的交汇点
随着今年Interspeech会议的临近,“生成式AI”已成为机器学习界和大众媒体的热门词汇,通常指合成文本或图像的模型。文本转语音(TTS)模型作为Interspeech的主要研究领域,在某种意义上一直是“生成式”的。但正如某机构Alexa AI组织的高级首席科学家所解释的,TTS也已被新的生成式AI范式重塑。
生成式方法革新TTS
早期的神经TTS模型以“点对点”方式训练。例如,在估计声谱图时,模型会尝试匹配单个时间片段的能量内容与目标语音。然而,文本转语音数据中存在多种有效表达方式(如调整语速、重音或停顿位置),因此单一“正确”答案的概念存在缺陷。
生成式AI提供了点对点训练的替代方案。例如,大型语言模型(LLM)计算词序列的概率分布,并在生成时从这些分布中采样。TTS的生成式建模进步在于不再追求单一正确答案,而是估计所有可能答案的正确概率。
生成式TTS的首个方法是标准化流(normalizing flows),通过可逆变换序列近似先验分布。随后扩散模型通过逐步添加噪声并训练模型去噪,最终从随机输入生成数据。
频谱量化的突破
近期,频谱量化方法引起了TTS研究者的广泛关注。该方法通过声学标记器将声谱图片段(如100毫秒)转换为整数,从而将连续的声谱图建模问题转化为单元预测问题。模型不关心这些整数的来源,仅关注序列及其高层结构。
频谱量化模型与因果LLM高度相似:两者均基于标记序列进行预测。这使得LLM的代码、建模方法和洞察可直接应用于语音建模,实现了文本与语音处理方法的统一。
语音生成与理解的融合
研究不仅限于TTS,还包括自动语音识别(ASR)及相关声学信号处理技术。从人类经验来看,语音生成和理解是不可分割的统一过程。理想的机器也应同样处理对话中的双方内容。
端到端语音识别和TTS面临相似挑战,例如处理数据中未充分表示的词汇。ASR系统难以转录未听过的新词,TTS系统则难以正确发音未遇过的新词。尽管两者是逆过程,但问题空间重叠,解决方案可相互借鉴。
例如,某机构研究人员已使用TTS模型生成的音频数据训练ASR模型。但更重要的是推动文本转语音和语音转文本技术的深度融合,这正是某机构的核心使命。
注:本文基于Interspeech 2023会议背景,探讨了生成式AI如何推动语音技术的融合与创新。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
更多推荐
所有评论(0)