从简单的指令执行到具备“心智”的情感共鸣,AI 语音交互正在经历怎样的蜕变?在人工智能飞速发展的今天,我们渴望的不再仅仅是一个“有问必答”的助手,而是一个能听懂弦外之音、能接住突发话茬的“知心伙伴”。 最近,ICASSP 2026 发起类人语音对话系统挑战赛(Human-like Spoken Dialogue Systems Challenge,HumDial),旨在推动语音对话模型在“高情商”情感感知与“全双工”流式交互两大核心维度的技术跃迁。目前赛事已经告一段落,现正式揭晓比赛结果。

图片

竞赛背景

当下的语音对话模型虽然在技术指标上表现出色,却仍然缺少一丝“人味儿”。它们或许能识别出“开心”或“难过”的单一情绪,却难以真正理解我们复杂的情感变化、共情我们的处境;它们或许能做到对答如流,却在面对抢话、打断、多人闲聊等真实交互场景时,显得手足无措。这正是目前语音对话系统难以逾越的“恐怖谷”。

为了打破这一瓶颈,推动技术迈向真正的“类人”交互,由西北工业大学、南京大学、华为科技有限公司、希尔贝壳科技有限公司等单位联合发起类人语音对话系统(HumDial) 挑战赛。基于真实场景的中英双语语音数据,设立了极具前沿性的两大核心赛道,吸引了全球 100 余支由顶尖高校、科研机构及企业组成的团队踊跃报名

竞赛官网:

https://aslp-lab.github.io/HumDial-Challenge/

赛道设置与结果

Track 1:情感智能赛道 (Emotional Intelligence Track)

该赛道聚焦大模型的用户情感感知与生成能力,包含三个核心任务:情感轨迹检测(Emotional Trajectory Detection)、情感推理(Emotional Reasoning)以及共情响应(Empathy Assessment)。

评分方法: 采用客观指标与主观评估相结合的方式。客观部分考察模型对情绪变化和诱因识别的准确性以及模型生成的文本共情度;主观部分则通过人类打分评估模型生成语音回复的共情效果。

🥇第一名:TeleAI

Team member: Qing Wang, Zehan Li, Yaodong Song, Hongjie Chen, Jian Kang, Jie Lian, Jie Li, Yongxiang Li, Zhongjiang He, Xuelong Li

Organization: Institute of Artificial Intelligence (TeleAI), China Telecom

🥈第二名:NJU-TencentHY

Team member: Dahan Wang, Tong Lei, Qinwen Hu, and Jing Lu

Organization: NJU & Tencent Hunyuan Multimodal Models Department & AI Lab

🥉第三名:BJTU_Unisound_team

Team member: Xian Zhao, Rui Hu, Xue Li, Delai Qiu, Yining Wang, Shengping Liu

Organization: Beijing Jiaotong University

图片

👉 点击查看 Track 1 详细比赛结果:

https://aslp-lab.github.io/HumDial-Challenge/track1/results

Track 2:全双工交互赛道 (Full-Duplex Interaction Track)

该赛道包含用户与大模型语音交互过程中的打断(Interruption)和拒识(Rejection)两大基准场景。打断场景考察模型对用户追问、否定、话题转换等插话行为的即时响应;拒识场景则考察模型对用户语气词、思考停顿及背景人声的抗干扰能力。

评分方法: 核心指标为响应时延(Latency)和交互准确率,旨在衡量模型在实时流式交互中能否实现低延迟且准确的“听”与“说”并行。

🥇第一名:cookie_asr

Team member: Gaosheng Zhang

Organization: Transsion.com

🥈第二名:Badcat

Team member: Haoyuan Yu, Yuxuan Chen

Organization: Hunan University,Jilin University

图片

👉 点击查看 Track 2 详细比赛结果:

https://aslp-lab.github.io/HumDial-Challenge/track2/results

我们向所有获奖团队表示热烈祝贺!同时也感谢每一位参赛者的辛勤付出,你们的工作为社区贡献了宝贵的经验,也让“类人”交互的未来愿景离我们更近了一步。

更多详细技术报告与论文将在 2026年5月4日至8日于西班牙巴塞罗那举办的 ICASSP 2026专题研讨会上进行深度分享与研讨,敬请期待!

在这里插入图片描述

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐