声音识别大模型深度调研报告:架构演进、技术全景与产业应用
实验表明,Wav2Vec 2.0仅需10分钟的标注数据,配合5.3万小时的无标注预训练数据,即可在LibriSpeech数据集上达到4.8/8.2的WER(词错误率),这在传统监督学习时代是不可想象的 12。这意味着模型可以一次性处理长达数小时的音视频文件,并在其中进行精准的“大海捞针”式检索(Needle-in-a-haystack retrieval),例如在11小时的录音中找到某句特定的话
1. 执行摘要
在2023年至2025年的技术周期内,声音识别与音频处理领域经历了一场深刻的范式转移,从单一任务的自动语音识别(Automatic Speech Recognition, ASR)系统演变为具备多模态理解与生成能力的大型音频基础模型(Large Audio Models, LAMs)及大型音频-语言模型(Large Audio-Language Models, LALMs)。本报告基于对超过150篇前沿技术文献、开源基准测试及产业技术白皮书的详尽分析,全面梳理了这一领域的演进脉络、核心技术架构、主流模型生态及未来发展趋势。
研究显示,当前的技术路径主要分为两大阵营:一是以OpenAI Whisper为代表的弱监督大规模预训练路径,强调通过海量互联网数据实现鲁棒的语音转录;二是以Google AudioPaLM、Alibaba Qwen-Audio为代表的多模态融合路径,强调将音频编码器与大型语言模型(LLM)对齐,赋予模型复杂的声学推理、指令遵循及全双工交互能力。
报告核心发现如下:
-
架构融合成为主流:Conformer与Transformer架构的结合,以及音频编码器(Encoder)与LLM解码器(Decoder)的跨模态对齐,已成为构建LALM的标准范式 1。
-
数据规模法则生效:模型性能的提升不再仅依赖于标注数据的质量,更取决于无监督或弱监督数据的规模。Google USM利用1200万小时无标注数据进行预训练,验证了自监督学习在覆盖长尾语种方面的巨大潜力 3。
-
全双工交互的突破:随着GPT-4o和Qwen2.5-Omni等模型的出现,系统已具备“思考-说话”分离的流式处理能力,将端到端语音交互的延迟降低至毫秒级,开启了“Omni”模态的新时代 4。
-
幻觉与安全仍是瓶颈:尽管识别率显著提升,但生成式模型固有的“幻觉”问题(如在静音段生成虚假文本)在工业应用中仍需通过复杂的后处理与混合架构来缓解 6。
本报告旨在为技术决策者、AI研究人员及行业从业者提供一份详实的技术参考,深入剖析大模型时代声音识别技术的机遇与挑战。
2. 范式转移:从专用ASR到通用音频智能
2.1 传统级联系统的局限性
在大型语言模型爆发之前,语音交互系统主要采用级联(Cascaded)架构,即“ASR + NLP + TTS”的流水线模式。虽然这种模式在命令控制等简单场景下表现尚可,但其存在本质的信息丢失问题:
-
非语言信息丢失:ASR模块将富含情感、语调、说话人身份及环境背景的声学信号压缩为仅包含语义的纯文本。例如,用户以讽刺语调说出的“好极了”,在文本中无法与真诚的赞赏区分开来,导致NLP模块产生错误的理解 1。
-
误差传播:级联系统的每一环节都是独立的,ASR的转录错误会直接传递给下游的NLP模块,且无法通过上下文推理进行回溯修正 2。
-
高延迟:多阶段处理不可避免地增加了系统的端到端延迟,难以满足实时流畅对话的需求。
2.2 大型音频语言模型(LALM)的兴起
LALM的出现打破了上述局限。LALM的核心理念是将音频视为与文本同等地位的输入模态,直接映射到LLM的嵌入空间(Embedding Space)中。
-
声学感知与推理:LALM不仅能“听写”(Transcribe),更能“听懂”(Understand)。研究表明,LALM能够直接解析听觉信号中的非语言线索,如识别说话人的情绪状态、判断环境噪音类型,甚至在没有明确文本指令的情况下理解语音中的潜台词 1。
-
端到端能力:通过统一的模型架构,LALM可以在一个网络中同时完成语音识别、翻译、摘要、问答等多种任务,实现了从“感知”到“认知”的闭环 2。
2.3 “Omni”全模态交互的演进
进入2024-2025年,技术演进进一步从LALM迈向“Omni”模型。这类模型(如Qwen2.5-Omni, GPT-4o)不再局限于“音频输入-文本输出”,而是支持**全双工(Full-Duplex)**的实时语音输入输出。
-
流式推理:Omni模型采用了“思考者-表达者”(Thinker-Talker)的分离架构,允许模型在生成思维链(Chain-of-Thought)的同时流式输出语音,极大地降低了交互延迟 4。
-
跨模态任意转换:模型能够处理交织的文本、音频、视频输入,并以任意模态组合进行输出,这对于构建能够理解物理世界复杂场景的AI代理(Agent)至关重要 10。
3. 核心技术架构深度解析
当前主流的声音识别大模型在架构设计上呈现出高度的收敛性,主要依赖于自监督学习编码器、神经编解码器及模态对齐机制三大支柱。
3.1 自监督学习(SSL)编码器:声学表征的基石
自监督学习通过利用海量无标注数据,使模型能够学习到通用的声学表征,这已成为现代音频大模型的标配。
3.1.1 Wav2Vec 2.0:对比学习的先驱
Meta提出的Wav2Vec 2.0通过对比学习(Contrastive Learning)机制,解决了依赖标注数据的痛点。其核心思想是对输入的波形进行掩码(Masking),并要求模型从一组干扰项中识别出被掩码位置的正确量化单元(Quantized Speech Unit)11。
-
技术细节:模型由特征提取器(CNN)和上下文网络(Transformer)组成。特征提取器将原始波形转换为潜在表征,然后部分被掩码送入Transformer。实验表明,Wav2Vec 2.0仅需10分钟的标注数据,配合5.3万小时的无标注预训练数据,即可在LibriSpeech数据集上达到4.8/8.2的WER(词错误率),这在传统监督学习时代是不可想象的 12。
-
影响:这种方法证明了模型可以从声学结构本身学习语言的音素特征,为后续的多语言扩展奠定了基础。
3.1.2 HuBERT:隐单元BERT
HuBERT(Hidden-Unit BERT)进一步借鉴了NLP中BERT的掩码语言模型(MLM)思想。不同于Wav2Vec 2.0的在线量化,HuBERT利用离线的K-means聚类算法对音频特征进行预处理,生成伪标签(Pseudo-labels)。模型的目标是预测被掩码区域所属的聚类中心 13。
-
优势:这种离线目标使得训练更加稳定,迫使模型更关注全局的语义和声学结构,而非局部的波形细节。
3.1.3 WavLM:全栈语音处理与去噪目标
Microsoft提出的WavLM在HuBERT的基础上引入了**掩码预测与去噪(Masked Prediction and Denoising)**的双重目标。
-
去噪机制:WavLM在预训练阶段会对输入语音进行增强,叠加背景噪声或重叠的说话人声音。模型不仅需要预测被掩码的内容,还需要在噪声干扰下恢复原始的干净语音信号 14。
-
全栈能力:这种设计使得WavLM不仅在ASR任务上表现出色,在说话人识别(Speaker Verification)、情感分析等非语义任务上也具有SOTA性能。实验显示,WavLM Base+在SUPERB基准测试的综合得分上显著优于HuBERT Large和Wav2Vec 2.0 Large 14。
3.2 神经编解码器(Neural Codecs):离散化与Token化
为了将连续的音频信号输入到擅长处理离散符号的LLM中,音频的“Token化”(Tokenization)至关重要。
3.2.1 矢量量化与离散编码
Google AudioPaLM和Microsoft UniAudio广泛采用了基于**残差矢量量化(Residual Vector Quantization, RVQ)**的神经编解码器(如SoundStream, EnCodec)。
-
工作原理:神经编解码器将音频波形压缩为一系列离散的码本索引(Codebook Indices)。这些索引被视为“音频词汇”(Audio Tokens),与文本Token共享同一个词表 16。
-
多尺度处理:由于音频的采样率极高(如16kHz),直接量化会产生极长的序列。UniAudio采用了多尺度Transformer(Multi-scale Transformer)架构,通过分层建模来处理长序列依赖问题,使得模型能够同时捕捉局部声学细节和全局语义结构 18。
-
语义与声学的解耦:最新的研究(如SpeechTokenizer)尝试将音频解耦为语义Token(用于内容理解)和声学Token(用于音色和情感重建),从而提高LLM处理的效率和生成的可控性 20。
3.2.2 连续特征对齐
与离散化不同,OpenAI Whisper和Alibaba Qwen-Audio采用了连续特征对齐方案。
-
机制:使用强大的音频编码器(如Whisper Encoder)提取连续的Mel频谱图特征,然后通过一个轻量级的适配器(Adapter)或投影层(Projector)将其映射到LLM的输入维度。
-
优势:这种方法保留了更多的声学原始信息,避免了量化过程中的有损压缩,对于ASR和细粒度音频分析任务通常表现更佳 21。
3.3 Conformer架构:卷积与注意力的结合
Google的Universal Speech Model (USM) 依然坚持使用Conformer架构,这是对Transformer的重大改良。
-
Macaron结构:Conformer块采用了“三明治”结构,即在多头自注意力(MHSA)模块前后各放置一个半步的前馈网络(FFN),并在中间通过卷积模块(Convolution Module)来增强局部特征的提取能力 23。
-
设计哲学:Transformer擅长捕捉全局长距离依赖(Global Dependencies),而CNN擅长捕捉局部声学纹理(Local Patterns)。Conformer结合两者之长,在参数效率和识别准确率上均优于纯Transformer架构,特别是在多语言ASR任务中表现卓越 24。
4. 主流模型生态深度调研
本章对OpenAI、Google、Alibaba、Meta及Microsoft五大技术巨头的模型生态进行详细对比分析。
4.1 OpenAI Whisper系列:弱监督学习的巅峰
Whisper系列模型代表了通过数据工程实现鲁棒ASR的极致路径。
4.1.1 Whisper v2 vs. v3:数据为王
Whisper v3并非架构上的革命,而是数据规模与质量的胜利。
-
数据构成:Whisper v2使用了约68万小时的互联网多语言弱监督数据。而Whisper v3将数据量扩展至500万小时,其中包含100万小时的弱监督数据和400万小时的伪标签数据(Pseudo-labeled audio) 26。
-
伪标签策略:OpenAI利用Whisper v2对海量无标注音频进行转录,生成伪标签,再用这些数据训练v3。这种“自我训练”(Self-training)循环极大地提升了模型的鲁棒性,使其在多语言识别上的错误率降低了10%-20% 26。
-
架构微调:v3将输入特征从80通道Mel频谱图增加至128通道,以捕捉更细腻的频谱特征,同时在编码器端进行了优化 26。
-
工业界反馈:尽管v3在基准测试上领先,但社区反馈指出其在某些场景下不如v2稳定,容易出现“复读机”(Looping)现象或对静音段的幻觉(Hallucinations)27。因此,Distil-Whisper等蒸馏版本在工业部署中往往更受欢迎 29。
4.1.2 幻觉问题与机理解析
Whisper的生成式本质(Next-token prediction)是其幻觉问题的根源。
-
现象:在音频模糊或静音时,模型会根据训练数据的统计规律自动补全内容(如“谢谢观看”、“字幕由...制作”),而非忠实于声学信号 6。
-
归因:研究发现,模型Decoder中存在特定的“疯狂注意力头”(Crazy Heads),它们过度关注上下文而非当前的声学编码。通过屏蔽这些注意力头或引入外部的语音活动检测(VAD)可以有效缓解此问题 7。
4.2 Google生态:通用性与多模态原生
Google采取了两条并行的技术路线:追求极致覆盖的USM和追求原生多模态交互的AudioPaLM/Gemini。
4.2.1 Universal Speech Model (USM)
USM是Google“组织全球信息”使命在语音领域的体现,目标是覆盖全球300种以上语言。
-
1200万小时预训练:USM利用YouTube上超过1200万小时的无标注多语言音频进行自监督预训练。这种规模的数据量使模型能够学习到极其丰富的声学多样性,覆盖了大量长尾语种(如阿萨姆语、卢干达语)3。
-
微调策略:在预训练编码器之后,使用相对较少的标注数据进行微调,即可在小语种上实现SOTA性能,证明了大规模无监督预训练对于解决数据稀缺问题的有效性 3。
4.2.2 AudioPaLM与Gemini
AudioPaLM展示了将语言模型能力迁移至音频领域的可能性。
-
联合词表:AudioPaLM将文本Token和音频Token合并到一个词表中,使用PaLM-2作为底座。这使得模型可以利用LLM中蕴含的丰富语言知识来辅助语音识别和翻译 16。
-
语音到语音翻译(S2ST):通过直接预测目标语言的音频Token,AudioPaLM能够实现保留原说话人音色(Voice Transfer)的翻译,这是传统级联系统无法做到的 16。
-
Gemini 1.5 Pro:Gemini进一步引入了长上下文(Long Context)能力,支持高达100万Token的窗口。这意味着模型可以一次性处理长达数小时的音视频文件,并在其中进行精准的“大海捞针”式检索(Needle-in-a-haystack retrieval),例如在11小时的录音中找到某句特定的话 32。
4.3 Alibaba Qwen-Audio系列:指令遵循与分析专家
Alibaba的Qwen-Audio系列在开源社区表现活跃,专注于提升模型的指令遵循能力和复杂音频分析能力。
4.3.1 Qwen-Audio与Qwen2-Audio
Qwen-Audio通过轻量级适配器将Whisper编码器与Qwen LLM连接。
-
多任务统一:模型不再依赖特定的任务标签,而是通过自然语言指令(如“请转录这段音频”、“这段声音里有什么背景音?”)来驱动。
-
交互模式:Qwen2-Audio引入了“语音聊天”(Voice Chat)和“音频分析”(Audio Analysis)两种模式。在分析模式下,用户可以上传音频并进行多轮问答;在聊天模式下,模型则支持自由的语音对话 10。
-
性能表现:在AIR-Bench基准测试中,Qwen2-Audio在音频指令遵循任务上超越了Gemini 1.5 Pro,显示了其在理解复杂用户意图方面的优势 21。
4.3.2 SenseVoice:极致效率
与Qwen-Audio的生成式大模型路线不同,SenseVoice专注于高吞吐量的语音理解。
-
架构:SenseVoice-Small采用Encoder-only架构,专为快速ASR和音频事件检测(Audio Event Detection, AED)设计。
-
特点:它在保持高识别率的同时,推理速度极快,适合作为大规模语音数据的预处理或实时索引工具。其训练数据涵盖了WenetSpeech等多领域的庞大语料库 34。
4.3.3 Qwen2.5-Omni:全双工流式交互
Qwen2.5-Omni是Alibaba在实时交互领域的最新突破。
-
思考-说话解耦:模型架构明确区分了推理模块(Thinker)和生成模块(Talker)。这种设计允许模型在进行深度思维链推理的同时,通过流式接口实时输出语音,将响应延迟控制在500ms以内 5。
-
流式生成:利用Flow-Matching扩散模型,从离散的语义Token实时生成Mel频谱图,实现了高质量的流式语音合成 22。
4.4 Meta与Microsoft:开源基石与统一生成
4.4.1 Meta Omnilingual ASR
Meta在2025年底发布的Omnilingual项目,旨在彻底解决语言鸿沟。
-
1600+语种覆盖:基于Wav2Vec 2.0架构扩展至70亿参数(7B),覆盖了超过1600种语言,包括500种从未被AI系统支持的低资源语言 35。
-
社区驱动数据:Meta采用了一种独特的众包策略,通过与全球语言社区合作收集真实环境下的语音数据,而非仅依赖网络爬虫。这种策略使得模型在口音和方言识别上具有极高的鲁棒性 36。
4.4.2 Microsoft UniAudio
Microsoft的UniAudio试图统一所有的音频生成任务。
-
统一生成:将语音、音乐、音效的生成全部建模为Next-Token Prediction任务。无论用户需要一段小提琴独奏、一句合成语音还是背景噪音,模型都通过预测离散音频Token来完成 19。
-
技术挑战:为了解决长序列生成的一致性问题,UniAudio在Transformer架构中引入了多尺度机制,确保生成的长音频在时间维度上保持连贯 18。
5. 数据工程:大模型的隐形引擎
大模型的性能上限由数据决定,数据工程已成为各家竞争的核心壁垒。
5.1 数据规模的指数级跃升
从早期的LibriSpeech(960小时)到Whisper(68万小时),再到Google USM(1200万小时),数据规模在短短几年内增长了四个数量级。
-
监督 vs 无监督:Whisper证明了大规模弱监督(配有字幕的网络视频)是实现通用ASR的最快路径。而Google USM则证明了超大规模无监督预训练是解决长尾语种覆盖的唯一解 3。
5.2 伪标签与合成数据
随着自然数据耗尽,合成数据成为新的增长点。
-
自举训练:Whisper v3使用400万小时伪标签数据的成功,确立了“以模型训练模型”的可行性。
-
生成式增强:利用Text-to-Audio模型生成的合成音频被用于增强训练集,特别是在稀有声音事件检测和低资源语种识别任务中,合成数据显著提升了模型的泛化能力 39。
5.3 多语言数据集的构建
-
WenetSpeech:作为一个拥有1万小时强标注和2.2万小时总量的中文多领域数据集,WenetSpeech通过OCR和ASR预处理结合人工校验的方式构建,成为中文语音识别领域的重要基石 41。
-
FLEURS与Common Voice:这些公开数据集虽然规模较小,但在评估模型的多语言能力和公平性方面发挥着关键作用。
6. 评测基准与性能全景
6.1 Open ASR Leaderboard深度分析
Hugging Face的Open ASR Leaderboard提供了当前最权威的模型横向对比。
| 模型 | 参数量 | 英文WER (%) | 多语言能力 | 实时因子 (RTFx) | 许可证 |
|---|---|---|---|---|---|
| Canary Qwen 2.5B | 2.5B | 5.63 | 高 | 中等 | Apache 2.0 |
| Parakeet TDT 0.6B | 0.6B | 6.05 | 中 | 3386 (极快) | CC-BY-4.0 |
| Granite Speech 3.3 | 8B | 5.85 | 高 | 31 (较慢) | Apache 2.0 |
| Whisper Large v3 | 1.55B | ~7.8 | 极高 (广度) | 100+ | MIT |
数据来源:42
分析结论:
-
精度与速度的权衡:NVIDIA的Parakeet TDT利用Token-and-Duration Transducer架构,实现了惊人的推理速度(RTFx > 3000),是实时应用的理想选择。
-
Transformer vs Conformer:排名前列的模型(如Canary, Parakeet, Granite)普遍采用Conformer或其变体作为编码器,再次验证了混合架构在ASR任务上的优势 43。
-
专才与通才:Whisper虽然在英文WER上不是最低,但其多语言覆盖的广度和对噪音的鲁棒性使其在通用场景下仍具有统治力。
6.2 AIR-Bench:指令遵循能力评测
AIR-Bench专注于评估LALM对音频内容的理解与指令执行能力。
-
评测维度:包括基础音频理解(Foundation)和聊天互动(Chat)。
-
结果:Qwen2-Audio在多项指标上领先,表明将强LLM与强Audio Encoder结合的策略在复杂认知任务上优于单一的ASR模型 46。传统ASR模型(如Whisper)因无法理解“指令”而在该榜单上表现不佳。
7. 关键挑战与局限性
尽管进展迅速,但LALM的大规模落地仍面临严峻挑战。
7.1 幻觉(Hallucinations)与事实性
幻觉是生成式语音模型的阿喀琉斯之踵。
-
表现:模型在无声或噪音段生成特定短语(如“Thank you for watching”),或错误重复单词。
-
风险:在医疗转录、法庭记录等严肃场景中,任何幻觉都是不可接受的。
-
对策:目前主要依靠置信度过滤、外部VAD模块以及混合架构(如使用CTC分支进行约束)来缓解,但尚无根治之法 6。
7.2 延迟(Latency)与交互体验
大模型的计算量导致了显著的延迟。
-
瓶颈:7B参数以上的模型在生成响应前需要数百毫秒的计算,加上网络传输,很容易突破人机对话的舒适区(~200-500ms)。
-
方向:全双工流式架构(如Qwen-Omni)通过重叠计算与传输时间,正在逐步解决这一问题,但对硬件资源要求极高 5。
7.3 多语言“税”(Multilingual Tax)
在模型容量有限的情况下,支持更多语言往往会导致高资源语言(如英语)性能的下降。
-
现象:Open ASR Leaderboard数据显示,专注于英语或少数几种语言的模型(如English-only Distil-Whisper)往往比支持100种语言的同规模模型WER更低 43。如何在扩展广度的同时保持深度,是模型设计的一大难题。
8. 产业应用与未来展望
8.1 呼叫中心智能化升级
呼叫中心是LALM落地的第一战场。
-
应用深度:从简单的质检转录升级为意图挖掘和情感预测。LALM能够分析客户的语调变化,预测投诉风险,甚至实时辅助坐席人员话术 49。
-
技术红利:说话人分离(Diarization)技术的进步使得在单声道录音中准确区分坐席与客户成为可能,释放了海量存量录音的数据价值。
8.2 智能会议与生产力工具
-
自动化闭环:结合Whisper的转录能力与LLM的摘要能力,会议工具已进化为能够自动生成Action Items、提取关键决策的智能助手。
-
长文档理解:Gemini 1.5 Pro等长上下文模型的引入,使得对长达数小时的年度会议记录进行全量分析成为现实 51。
8.3 代理(Agent)与行动力
未来的语音助手将不再是“传声筒”,而是具备行动力的Agent。
-
趋势:通过API集成,语音模型(如GPT-4o)可以直接操作软件工具(订票、发邮件)。全双工交互能力使得这种操作更接近人类直觉,支持打断、插话和纠正,彻底改变人机交互界面 53。
9. 结论
声音识别大模型领域正处于从“感知智能”向“认知智能”跃迁的关键时期。
-
技术层面:Encoder-Decoder混合架构与大规模自监督预训练已确立为行业标准。
-
应用层面:随着“Omni”模型的成熟,实时、多模态、全双工的交互体验将重塑智能硬件、客服及办公场景。
-
未来展望:2025年后的竞争将聚焦于端侧轻量化、极低延迟交互以及可控性与安全性的提升。解决幻觉问题并降低多语言部署的边际成本,将是决定LALM能否像LLM一样全面普及的关键。
注:本报告中引用的 标记对应原始调研材料中的文献与数据来源。
引用的著作
-
Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2505.15957v3
-
A Survey on Speech Large Language Models - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2410.18908v3
-
Universal Speech Model - Google Research, 访问时间为 十一月 23, 2025, https://sites.research.google/usm/
-
Qwen/Qwen2.5-Omni-7B - Hugging Face, 访问时间为 十一月 23, 2025, https://huggingface.co/Qwen/Qwen2.5-Omni-7B
-
Qwen3-Omni: Alibaba's Groundbreaking Multimodal Foundation Model | by Sharadsisodiya | Data And Beyond | Sep, 2025 | Medium, 访问时间为 十一月 23, 2025, https://medium.com/data-and-beyond/qwen3-omni-alibabas-groundbreaking-multimodal-foundation-model-890a120069ed
-
Why language models hallucinate - OpenAI, 访问时间为 十一月 23, 2025, https://openai.com/index/why-language-models-hallucinate/
-
Reduce Whisper Hallucination On Non-Speech By Calming Crazy Heads Down - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2505.12969v1
-
Recent Advances in Speech Language Models: A Survey - ACL Anthology, 访问时间为 十一月 23, 2025, https://aclanthology.org/2025.acl-long.682.pdf
-
[2410.18908] A Survey on Speech Large Language Models for Understanding - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/abs/2410.18908
-
Qwen2-Audio: Chat with Your Voice! - Qwen AI, 访问时间为 十一月 23, 2025, https://qwen.ai/blog?id=5db989ea613ef9737f424a31270faaabab5279e7&from=research.research-list
-
Wav2vec 2.0: Learning the structure of speech from raw audio - AI at Meta, 访问时间为 十一月 23, 2025, https://ai.meta.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/
-
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations, 访问时间为 十一月 23, 2025, https://ai.meta.com/research/publications/wav2vec-2.0-a-framework-for-self-supervised-learning-of-speech-representations/
-
Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2503.04710v1
-
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing, 访问时间为 十一月 23, 2025, https://audiocc.sjtu.edu.cn/user/pages/05.members/zhengyang.chen/publications/WavLM@@Large-Scale@Self-Supervised@Pre-Training@for@Full@Stack@Speech@Processing/paper.pdf
-
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing, 访问时间为 十一月 23, 2025, https://www.microsoft.com/en-us/research/publication/wavlm-large-scale-self-supervised-pre-training-for-full-stack-speech-processing/
-
AudioPaLM: A Large Language Model That Can Speak and Listen - ResearchGate, 访问时间为 十一月 23, 2025, https://www.researchgate.net/publication/371786265_AudioPaLM_A_Large_Language_Model_That_Can_Speak_and_Listen
-
Exploring the Semantic Shortcoming of Codec for Audio Language Model - AAAI Publications, 访问时间为 十一月 23, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/34761/36916
-
UniAudio: An Audio Foundation Model Toward Universal Audio Generation - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2310.00704v5
-
UniAudio: An Audio Foundation Model Toward Universal Audio Generation - Microsoft, 访问时间为 十一月 23, 2025, https://www.microsoft.com/en-us/research/publication/uniaudio-an-audio-foundation-model-toward-universal-audio-generation/?locale=zh-cn
-
Exploring the Semantic Shortcoming of Codec for Audio Language Model - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2408.17175v1
-
Qwen2-Audio Technical Report - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2407.10759v1
-
Qwen2.5-Omni: A Real-Time Multimodal AI - Learn OpenCV, 访问时间为 十一月 23, 2025, https://learnopencv.com/qwen2-5-omni/
-
Brief Review — Conformer: Convolution-augmented Transformer for Speech Recognition, 访问时间为 十一月 23, 2025, https://sh-tsang.medium.com/brief-review-conformer-convolution-augmented-transformer-for-speech-recognition-88dbf40240db
-
Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages, 访问时间为 十一月 23, 2025, https://research.google/blog/universal-speech-model-usm-state-of-the-art-speech-ai-for-100-languages/
-
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/pdf/2303.01037
-
openai/whisper-large-v3 - Hugging Face, 访问时间为 十一月 23, 2025, https://huggingface.co/openai/whisper-large-v3
-
Whisper large-v3 model vs large-v2 model - OpenAI Developer Community, 访问时间为 十一月 23, 2025, https://community.openai.com/t/whisper-large-v3-model-vs-large-v2-model/535279
-
Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio This research was supported by the National Science Centre, Poland under Grant 2021/42/E/ST7/00452, the National Centre for Research and Development, Poland under Grant INFOSTRATEG-IV/0029/2022, and by program ”Excellence initiative – research university” - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2501.11378v1
-
Transcription benchmark: Distil-Whisper Large v2 vs Whisper Large v3 - SaladCloud Blog, 访问时间为 十一月 23, 2025, https://blog.salad.com/distil-whisper-large-v2/
-
Google Universal Speech Model ( USM ) SOTA speech to text AI Better than OpenAI Whisper High Level - YouTube, 访问时间为 十一月 23, 2025, https://www.youtube.com/watch?v=gl4PuvS-Up0
-
AudioPaLM: Revolutionizing Speech Understanding and Generation | by Hariom - Medium, 访问时间为 十一月 23, 2025, https://medium.com/@sonihariom555/audiopalm-revolutionizing-speech-understanding-and-generation-891a129157f1
-
Comparison of Gemini 1.5 Pro vs. GPT-4o - AI Chatbot for Customer Support, 访问时间为 十一月 23, 2025, https://livechatai.com/llm-comparison/gemini-1-5-pro-vs-gpt-4o
-
GPT-4o vs. GPT-4 vs. Gemini 1.5: A Head-to-Head Comparison 2024 - Bajra Blogs, 访问时间为 十一月 23, 2025, https://blog.bajratechnologies.com/gpt-4o-vs-gpt-4-vs-gemini-1-5-a-head-to-head-comparison-2024-987276e80da5
-
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/html/2407.04051v1
-
Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, 访问时间为 十一月 23, 2025, https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/
-
Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages, 访问时间为 十一月 23, 2025, https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/
-
UniAudio: An Audio Foundation Model Toward Universal Audio Generation - Microsoft, 访问时间为 十一月 23, 2025, https://www.microsoft.com/en-us/research/publication/uniaudio-an-audio-foundation-model-toward-universal-audio-generation/
-
Introducing Whisper - OpenAI, 访问时间为 十一月 23, 2025, https://openai.com/index/whisper/
-
Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling? - ISCA Archive, 访问时间为 十一月 23, 2025, https://www.isca-archive.org/interspeech_2024/feng24b_interspeech.pdf
-
[2406.08800] Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling? - arXiv, 访问时间为 十一月 23, 2025, https://arxiv.org/abs/2406.08800
-
WENETSPEECH: A 10000+ Hours Multi-Domain Mandarin Corpus for Speech Recognition - IEEE Xplore, 访问时间为 十一月 23, 2025, https://ieeexplore.ieee.org/iel7/9745891/9746004/09746682.pdf
-
The Top Open Source Speech-to-Text (STT) Models in 2025 | Modal Blog, 访问时间为 十一月 23, 2025, https://modal.com/blog/open-source-stt
-
Open ASR Leaderboard: Trends and Insights with New Multilingual & Long-Form Tracks, 访问时间为 十一月 23, 2025, https://huggingface.co/blog/open-asr-leaderboard
-
Open ASR Leaderboard - a Hugging Face Space by hf-audio, 访问时间为 十一月 23, 2025, https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
-
IBM Granite model tops Hugging Face speech recognition leaderboard, 访问时间为 十一月 23, 2025, https://research.ibm.com/blog/granite-speech-recognition-hugging-face-chart
-
AIR-Bench - Holistic Evaluation of Language Models (HELM) - Stanford CRFM, 访问时间为 十一月 23, 2025, https://crfm.stanford.edu/helm/air-bench/latest/
-
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension - GitHub, 访问时间为 十一月 23, 2025, https://github.com/OFA-Sys/AIR-Bench
-
Hugging Face's Open ASR Leaderboard Benchmarks 60+ Speech Recognition Models, 访问时间为 十一月 23, 2025, https://winsomemarketing.com/ai-in-marketing/hugging-faces-open-asr-leaderboard-benchmarks-60-speech-recognition-models
-
From Data to Action: Essential Call Center Analytics Use Cases for 2025 - Balto AI, 访问时间为 十一月 23, 2025, https://www.balto.ai/blog/call-center-data-analytics-use-cases/
-
From speech to insights: The value of the human voice - McKinsey, 访问时间为 十一月 23, 2025, https://www.mckinsey.com/capabilities/operations/our-insights/from-speech-to-insights-the-value-of-the-human-voice
-
Automatic Meeting Reporting: Boosting SME Efficiency - ActivDev, 访问时间为 十一月 23, 2025, https://www.activdev.com/en/minutes-automatic-meeting-booster-efficacite-pme/
-
AI-Powered Meeting Summarizer in Python | End-to-End GenAI Project (Part 1) - YouTube, 访问时间为 十一月 23, 2025, https://www.youtube.com/watch?v=v6ZXiaUxWFM
-
Top 8 promising voice AI agent platforms for 2025 - Glean, 访问时间为 十一月 23, 2025, https://www.glean.com/perspectives/most-promising-voice-ai-agent-platforms
-
The voice AI stack for building agents in 2025 - AssemblyAI, 访问时间为 十一月 23, 2025, https://www.assemblyai.com/blog/the-voice-ai-stack-for-building-agents
更多推荐



所有评论(0)