微软:强化学习做可解释语音情感推理
如何让语音大模型不仅准确识别情绪,还能像人类一样基于声学线索进行可解释的因果推理?论文将语音情感识别重构为深度推理任务,提出EmotionThinker框架,通过音律增强、链式思考数据集和新型信任感知强化学习(GRPO-PTR),同步提升情绪识别准确率与解释质量。

📖标题:EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning
🌐来源:arXiv, 2601.15668v1; ICLR, 2026
🌟摘要
语音中的情感信息在多模态感知中发挥着独特的作用。然而,当前的语音大语言模型(SpeechLLMs),类似于传统的语音情感识别(SER)系统,仍然将情感理解视为一个简单的分类问题。这提供了有限的预测可解释性,同时使LLM的表达和推理能力未得到充分利用。在这项工作中,我们迈出了第一步,通过强化学习(RL)将SER重新表述为深度推理问题。我们提出了EmotionThinker,它旨在生成准确的情感预测,这些预测具有基于细粒度声学线索的可解释解释。为了实现这一点,我们首先构建了EmotionCoT-35K,这是一个带有Chainof-思想注释和详细字幕的情感推理数据集。其次,我们观察到当前的SpeechLLMs表现出弱的韵律感知,而韵律线索构成了解释情绪的基本信号。为了解决这个问题,我们开发了韵律增强基础模型EmotionThinker-Base,并证明韵律增强改善了情绪理解。第三,我们为RL引入了Progressive-Trust-aware-ReasoningRewardGroup-Relative-Policy-Optimization(GRPO-PTR)。与仅依赖基于规则的结果奖励的标准GRPO不同,GRPO-PTR逐步引入推理奖励,用反映推理和结果一致性的可信度权重动态调整它,并使用基于多维标准的奖励模型评估整体推理质量。EmotionThinker在情感准确性和解释质量方面都优于以前最先进的评估模型,将SER推向可解释的多模态推理。项目页面:https://github.com/dingdongwang/EmotionThinker
🔔文章简介
🔸研究问题:如何让语音大模型不仅准确识别情绪,还能像人类一样基于声学线索进行可解释的因果推理?
🔸主要贡献:论文将语音情感识别重构为深度推理任务,提出EmotionThinker框架,通过音律增强、链式思考数据集和新型信任感知强化学习(GRPO-PTR),同步提升情绪识别准确率与解释质量。
📝重点思路
🔸构建首个音律感知的链式思考数据集EmotionCoT-35K,覆盖35K样本、9类情绪,并自动提取说话人特征、精细韵律(音高/语速/能量/重音/语调轮廓)及语义线索作为推理依据。
🔸设计音律中心监督微调(SFT)阶段,基于Qwen2.5-Omni-7B构建EmotionThinker-Base,联合训练音频编码器与语言模型,显著提升对关键情感载体——韵律信号的感知能力。
🔸提出GRPO-PTR强化学习算法:引入多维奖励模型评估推理质量(事实对齐、解释性、完整性、流畅性),并动态加权信任度τ,仅当推理质量在正确答案组中显著高于错误组时才启用推理奖励,防止奖励作弊。
🔸采用渐进式奖励调度策略:先仅用格式与结果奖励稳定训练,待情绪准确率达50%后再引入推理奖励,避免早期不稳定的开放生成干扰收敛。
🔎分析总结
🔸消融实验证明,音律增强SFT使韵律感知准确率平均提升超40个百分点(如音高识别从25.7%→75.1%),是可靠推理的前提。
🔸GRPO-PTR相较标准GRPO,在IEMOCAP等四大基准上平均情绪准确率提升近6%,推理综合得分达3.98(5分制),显著优于所有基线模型。
🔸移除信任权重τ后推理得分下降0.24,说明其有效抑制了“正确答案+错误推理”的虚假关联;取消渐进策略则准确率骤降6%,验证训练稳定性设计的必要性。
🔸人工评估与GPT自动评分高度一致,EmotionThinker在事实对齐和描述完整性上优势突出,证实其推理真正扎根于音频证据。
💡个人观点
论文打破“情绪即分类”的范式惯性,将语音情感建模为多模态感知—推理—决策闭环。
🧩附录

更多推荐


所有评论(0)