51c大模型~合集186
9 月 25 日,生数科技新一代图生视频大模型 Vidu Q2 正式全球上线,打破了原有 AI 生成的表情太假,动作飘忽不定,运动幅度不够大,无法指哪打哪的行业问题,实现从 “视频生成” 到 “演技生成”,从 “动态流畅” 到 “情感表达” 的革命性跨越,标志着 AI 视频生成技术正式从追求 “形似” 进入追求 “神似” 的新纪元,将为内容创作、影视产业、广告营销等领域带来全新升级。然而,当前的原
我自己的原文哦~ https://blog.51cto.com/whaosoft/14180268
#UIPro
告别“人工”点点点!中科院等发布UIPro:一个更懂你的通用GUI智能体
朋友们,想象一下,如果你的手机或电脑能自己看懂屏幕上的内容,然后帮你完成各种操作,比如自动订票、比价购物、管理邮件……那该有多爽?这个让AI像人一样操作图形用户界面(GUI)的梦想,一直是人工智能领域的终极目标之一。
最近,来自中科院、上海AI Lab等多个顶尖机构的研究者们,在这个方向上迈出了重要一步,他们提出了一个名为 UIPro 的通用GUI智能体,并被计算机视觉顶会 ICCV 2025 接收。简单来说,UIPro就是一个更强大、更通用的“屏幕操作机器人”,它在多个平台的多种任务上都展现了卓越的能力。
- 标题:UIPro: Unleashing Superior Interaction Capability For GUI Agents
- 作者:Hongxin Li, Jingran Su, Jingfan Chen, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang
- 机构:中国科学院大学、中国科学院、香港科技创新研究院、香港理工大学、上海人工智能实验室、StepFun
- 论文地址:https://arxiv.org/abs/2509.17328
- 项目地址:https://github.com/ZJULiHongxin/UIPro
- 录用信息:ICCV 2025
通用GUI智能体的“三座大山”
在介绍UIPro之前,得先聊聊,为什么开发一个“通用”的GUI智能体这么难?过去的很多尝试,虽然也取得了一些进展,但始终面临着三座大山:
- 场景受限:很多模型只能在特定的App或者网站上工作,换个环境就“失灵”了。
- 数据不足:训练AI也需要“教科书”,但高质量的GUI交互数据非常稀缺,导致模型学得不够好,不够通用。
- 动作空间异构:这是个更技术性的问题。不同的数据集对“点击”、“滑动”这些操作的定义和格式都不一样。这就好比教一个机器人开车,A教练说“踩油门”,B教练说“加速”,机器人就懵了。这种不统一导致很难把多个数据集整合起来,发挥“人多力量大”的优势。
UIPro的“两步走”修炼法
为了翻越这三座大山,UIPro采用了一套精心设计的“两步走”训练策略:先学理解,再学操作。
第一步:海量数据预训练,打下“理解”基础
一个智能体要操作GUI,首先得“看懂”屏幕上有什么。这个能力,研究者称之为“GUI Grounding”(GUI基础理解与定位)。为了让UIPro具备超强的理解能力,研究团队干了件大事:他们整理并清洗了一个高达2060万样本的超大规模GUI理解数据集!
这个数据集的规模和多样性在同类中是前所未有的。它包含了各种各样的任务,比如定位屏幕上的文字、识别图标、理解按钮功能等等,覆盖了网页、安卓、iPad等多种平台和分辨率。
通过在这个庞大的数据集上进行预训练,UIPro学会了准确地将用户指令与屏幕上的具体元素对应起来,为后续的“操作”打下了坚实的基础。CV君觉得,这种“大力出奇迹”的思路,在数据为王的今天,确实是提升模型能力最直接有效的方法之一。
值得一提的是,研究团队还发现原始数据中存在大量噪声(比如空白、无效的UI元素),并为此专门设计了一套去噪流程,大大提升了数据质量,这对最终模型的性能至关重要。
第二步:统一动作空间,学会“操作”
光会看还不行,还得会动手。为了解决前面提到的“动作空间异构”问题,UIPro提出了一个统一动作空间(Unified Action Space)。
他们为移动端、网页端和桌面端分别设计了一套标准化的动作定义。比如,把各种数据集中不一致的swipe
和scroll
操作,统一成包含起始点、方向、距离的标准格式。这样一来,来自不同来源的训练数据就可以无缝合并,形成一个更大、更多样化的“操作教科书”。
然后,在这个统一的数据集上对预训练好的UIPro进行微调,使其学会根据用户任务,准确地规划并预测出下一步应该执行哪个标准动作。
实验结果:全面超越,甚至击败GPT-4V
经过两阶段的“修炼”,UIPro终于出山了。研究者在多个覆盖安卓、网页等场景的公开基准上对它进行了严格的测试。
结果非常亮眼:
在AITW基准测试中,UIPro的表现全面超越了之前的各种方法,甚至比强大的闭源模型 GPT-4V-OmniParser 还要高出一大截!
在AndroidControl和GUIAct等其他移动端和网页端任务上,UIPro同样取得了SOTA(State-of-the-art)的成绩,无论是操作的成功率还是动作预测的准确率,都遥遥领先。
成功秘诀何在?
作者通过消融实验,进一步验证了他们方法的有效性。
实验证明,大规模的GUI理解预训练至关重要。模型的“理解”能力越强(Grounding准确率越高),后续学习“操作”的效果就越好,呈现出非常明显的正相关关系。
同时,“统一动作空间”和“多源数据融合”也功不可没。如果不进行统一,直接把异构数据混在一起训练,模型性能会急剧下降。这说明,UIPro提出的这套方法论是其成功的关键。
总结
总而言之,UIPro的成功为通往通用GUI智能体的道路扫清了几个关键障碍。它用“海量数据预训练”解决了理解不深的问题,用“统一动作空间”解决了数据无法融合的问题,最终打造出一个能力超群的通用GUI智能体。
这项工作不仅在技术上取得了突破,更重要的是,它提供了一套可行的、可扩展的范式,让人们离那个“AI助理能像人一样帮你操作一切”的未来又近了一步。
..
#Vidu Q2
AI视频生成走向「演技生成」时代,生数科技Vidu全球发布
当 AI 视频不再只像过去那样比拼高清像素,而是开始进入 “飙演技” 阶段,AI 视频才算正式迈入内容生产的最高级形式 —— 影视级叙事新阶段。
9 月 25 日,生数科技新一代图生视频大模型 Vidu Q2 正式全球上线,打破了原有 AI 生成的表情太假,动作飘忽不定,运动幅度不够大,无法指哪打哪的行业问题,实现从 “视频生成” 到 “演技生成”,从 “动态流畅” 到 “情感表达” 的革命性跨越,标志着 AI 视频生成技术正式从追求 “形似” 进入追求 “神似” 的新纪元,将为内容创作、影视产业、广告营销等领域带来全新升级。Vidu Q2 图生视频功能不仅能胜任复杂表情变化的文戏,常见的多人打斗场景的武戏,而且还能完美呈现大片中的炫酷特效。
据了解,相比于今年上半年发布的 Vidu Q1 模型,此次发布的 Vidu Q2 图生视频功能在极致细微表情生成、推拉运镜、语义理解、生成速度与时长选择方面都有了大幅提升,主要有 4 大亮点:
1、AI 演技更生动——不仅能生成视频,更有生动演技;
2、镜头语言更丰富——运镜自然流畅,创作更显张力;
3、语义理解更准确——创意直达画面,想象即刻成真;
4、时长选择更自由——时长选择灵活,满足更多场景。
以下视频来源于
生数ShengShu
,时长00:48
此外,为了满足用户对于生成速度和生成质量的不同需求,Vidu Q2 图生视频分为闪电模式和电影大片模式。闪电模型下 20 秒就能生成 5 秒 1080P 视频片段,满足极速出片的需求;电影大片模式则主要满足对于复杂表演、运镜等有更高要求的用户。
目前,Vidu Q2 图生视频功能已同步在其 Web 端、APP 端以及 API 上线。
AI 演技更生动
前不久的威尼斯电影节,辛芷蕾以极其精湛的演技获得了威尼斯国际电影节最佳女主角奖。对于演技派来说,最高的褒奖是演什么像什么,看了让人产生共鸣和代入感。而这种代入感往往是通过演员的细微情绪变化实现的,在短短几秒中突显人物情绪张力,表达人物性格,推动故事发展。
此前 AI 生成的短剧、长片或多或少都存在人物表情僵硬、不自然,演技浮夸的情形,很难表现角色复杂细腻的情绪。而此次发布的 Vidu Q2 图生视频则突破 “最后一道壁垒”,在细微表情生成中的技术被成功攻克,使数字角色能够展现出生动且充满感染力的演技,赋予了 AI 角色以生命力。
我们可以让 AI 演员和电影演员同台 PK 演技,复刻《甜蜜蜜》张曼玉经典片段,短短 5 秒时间呈现从微笑 —— 委屈 —— 难过三种复杂情绪。上边是电影原片段,下边是 Vidu Q2 图生视频生成的,人物演技非常自然,三种情绪之间的转换很有呼吸感,即使努力压抑,但是仍然流露出委屈和难过,对比来看 AI 生成的视频与原视频并无显著差别。
原视频
,时长00:05
Vidu Q2
真正的老戏骨每一个细胞都在演戏。这次 Vidu Q2 图生视频相比于 Q1,在细腻的情绪表达上有了明显提升,即使一个眼神也能述说故事。
输入图片
,时长00:08
Vidu Q2 图生视频
上述例子中,特写聚焦于一个金发碧眼老人的半边脸,周围的火焰将老人的脸照得通红,他轻轻地眨了眨眼,眼泪中饱含泪水,一滴眼泪从右眼中缓缓流下。即使没有任何言语和环境渲染,也让人对战争的残酷感同身受,AI 人的演技足可以媲美真人。
在动漫场景中,Vidu Q2 的表现也相当惊艳,表情惟妙惟肖更有代入感。在小狐狸的案例中,从瞪大眼睛的惊喜,到躲在石头后面的惊讶和害怕,耳朵竖了起来,再到稍微放松警惕后的无奈,表情的变化似乎在告诉观众好像有什么突如其来的大事发生。小狐狸灵动的演技有迪士尼动画那味了。
,时长00:08
在多个角色互动场景中,Vidu Q2 的表现也可圈可点。下面案例中,一男一女笑得合不拢嘴,之后女生捂着嘴笑,男生低头笑着擦了擦眼睛,两人再互相对视,真实得仿佛进入了某个播客的录制现场。
,时长00:08
再拿 Vidu Q2 图生视频和其他 AI 视频产品作对比。下面案例中,Vidu Q2 生成的视频每个表情都表现非常精准,从淡淡地微笑到嘴唇微张,眼神从微微向下看到望向远方。其他 AI 视频则完全没有表现出细微表情的变化,视线仅表现了看向远方。
提示词:视线微偏镜头下方,嘴角轻上扬但不露齿,下巴略收。随后瞳孔微放大,眼神越过镜头远点,嘴唇湿润轻启。
Vidu Q2
其他
下面古装戏场景中,其他家虽然也表现了表情凝重,但是演技比较单一,仅是完成了提示词要求,最后抬手也没有碰到额头,给人不真实的感觉。对比来看,Vidu Q2 的表情层次更加丰富,不仅严格遵循了提示词,而且 AI 自动设计了眼神和动作的变化,表演上 “更为走心”,首先男人边喘着粗气边表情凝重地看向远方,紧接着视线收回,嘴巴微闭,抬起手擦了擦额头,把凝重又疲惫的感觉演绎得非常到位。
提示词:这是一个美丽的夕阳场景,阳光照着古战场,空气中有着漂浮的灰尘,男人喘着粗气进行简单的休息,表情凝重,最后用手擦了一下额头
,时长00:08
Vidu Q2
其他
从 “AI 木头” 到 “AI 演技派”,从浮夸演技到内心戏,Vidu Q2 新一代 AI 演技的诞生,预测未来将在影视短剧、数字人、广告营销等多个领域有广泛应用。
不仅如此,Vidu Q2 还是个能文能武的全能型演技派,在武打戏上也是个 “老戏骨”。
此前 AI 视频普遍存在的问题是,运动飘忽不定,就连现实生活中常见的跑步和打篮球场景都很难实现,多人打戏更是需要依靠超高的提示词技巧和多次生成,即使这样打戏也是软弱无力,像是自动放了 2 倍慢速,毫无看点。
Vidu Q2 图生视频在运动幅度上有明显提升,即使是比较有挑战的连续运动(比如打架、打拳等)场面也能精准还原,实现真正的 “拳拳到肉”。
下面双人拳击场景中,红方迅速出拳,蓝方快速躲避并迅速来了个左勾拳,红方连续出拳后,红蓝方稍作停顿,双方都发起反攻,蓝方用双手防备后开启猛攻,连续三次攻打红方腹部后退回原地,瞬间带入拳击比赛现场,紧张气氛拉满。
,时长00:05
如果把真实场景中的人物换成动画中的小林和悟空,效果也同样惊人。悟空跳跃后放出大招冲击波,之后与小林连续多次出拳过招,双方打斗的同时也伴随着炫酷的动画特效,生成的视频兼具速度和力量感,让人看得十分过瘾。
Vidu Q2 甚至不需要复杂的提示词也能呈现非常精彩的打戏。
如下面案例中,长发女生手持光剑与周围的多个小型机器人进行激烈对战,女生奔跑,蹲下,站起来用光剑与迎面而来的小型机器人对抗,一跃而起后转而被其他机器人打击退回原地。如此复杂的打戏,提示词却相当简单,“流畅的奔跑,爽快的打斗,合理安排不同镜头,自由运镜”,这也意味着 Vidu Q2 对于动作的理解和生成能力已经进化到 Next level 了。
,时长00:08
更为值得一提的是,Vidu Q2 图生视频即使在如此大幅度的运动下,仍然能保持角色较高的一致性,不会出现人物模糊或者变脸的情况。这对于影视、动漫制作来说至关重要,背后得益于 Vidu 在一致性上的投入。去年 Vidu 在全球首个推出了参考生视频功能,将 AI 视频的可控一致性拉到了新的高度,而此次推出的 Vidu Q2 则延续了其作为一致性开创者的优势。
镜头语言更丰富
当其他家都在鼓吹好莱坞级别运镜时,一向低调务实的 Vidu 已经直接让新手小白做影视大片了。据了解,Vidu Q2 可轻松实现从宏观全景到微观特写的快速切换,以营造更具冲击力的视觉效果。
为了让 AI 视频更能满足广告电商、影视动漫等较为复杂的运镜需求,Vidu Q2 图生视频在复杂运镜上做到了秒级精准可控。
如下面的动画案例中,侠客挥舞着剑到变身闪电狼,中间有 6 个镜头切换,包括从特写直接切到大全景,同时还需要配合侠客转身同时腾空而起等动作,即使在现实拍摄场景中挑战也很大,但从实际生成效果来看, Q2 生成的画面镜头和 AI 人物配合默契,整个动作一气呵成,非常丝滑。
,时长00:08
在极速运动场景下的大幅度镜头切换非常考验空间理解能力和主体稳定性,对于 AI 视频来说极具挑战,但是 Vidu Q2 的表现却非常完美。从全景到赛车手眼神特写再到冲线后的观众席特写,Vidu Q2 在整个过程中对于推拉摇移镜头的调度极为流畅,跟随镜头下突显了赛车手全力冲刺的紧张感和速度感,同时也反映了赛场周围的热闹气氛。
提示词:颠簸镜头跟随
镜头一:全景推进跟随 FI 赛车前景
镜头二:切换戴 F1 赛车头盔的驾驶员紧张驾驶 F1 赛车眼神
镜头三:特写 F1 赛车加速仪表
镜头四:F1 赛车驾驶员第一人称视角,赛车加速前进
镜头五:F1 赛车快速行驶全景视角,冲向终点
镜头六,F1 赛车冲线后,看台上欢呼庆祝的观众特写视角
,时长00:08
语义理解更准确
无论是 AI 演技的提升还是运镜的精准拿捏,其实质上是 Vidu Q2 在动作理解、表情理解和镜头语言理解上的飞升。据了解,由于 Vidu Q2 在上下文推理、图像及语义理解和物理仿真能力上的提升,使其在提示词遵从上有了质的飞跃,有创作者评价为言出法随,指哪打哪。内容创作者不再需要像过去一样反复抽卡、反复调整提示词和输入画面,大幅减少了视频生成次数,可直接将创意转化为想要的视频画面。
在实际测试中发现,Vidu Q2 像是一位严格听话同时又具备合理想象力的 “AI 导演”。
下面的案例中,提示词要求在 8 秒中精确切换 4 个不同的镜头,完成从猫猫在街头弹古筝,到从古筝中飞出邪恶的骷髅战士的复杂叙事,可以看到生成的视频中不仅严格遵循了复杂的提示词的所有要求,而且骷髅战士从一团白气中突然出现的画面非常惊艳,镜头切换也很流畅。
提示词:第 1-2s:坐着的猫轻轻抚动古琴琴弦,镜头快速推近;3-4s:近距离大特写猫邪恶诡异的一笑,然后突然变得凶狠,镜头先推近拍摄同时向右环绕运镜拉远到侧面;5s:猫用力拨动琴弦;6-8s:琴弦释放出白色亮光魔法灵气,灵气向左冲刺,然后灵气幻化形成一个拿着刀的气态邪恶骷髅战士向左高速飞行,镜头高速跟踪拍摄同时推近运镜
Vidu Q2 在语义理解上质的突破,将过去因反复生成带来的时间、人力、成本以及效果的不确定性,变为高质量稳定输出的确定性,预计影视短剧、广告行业即将迎来 AI 视频大规模商业化拐点。
时长选择更自由
除了性能提升之外,一向对市场需求敏感的 Vidu 也推出了新功能,赋予创作者更多自由发挥的空间。
此前业内 AI 视频产品更多以 5 秒时长偏多,无法让内容创作者自由选择,具有一定的局限性。Vidu Q2 图生视频此次推出的 2-8 秒时长随心选,无论是 1 秒的特写镜头,还是 8 秒的连续长镜头或多个切换镜头,都可以任意选择,满足创作者不同场景的叙事需求。
此外,作为内容生产力工具,这次 Vidu Q2 的发布仍然继承了 Vidu 的优良传统,做到了极高性价比、极致画面质量、极快生成速度的平衡。
在同等画质和时长上,Vidu Q2 在生成速度上做到了行业领先。Vidu Q2 图生视频闪电模式下 1080P 5 秒视频仅为 20 秒,实现了高质量画面的极速生成。
当以 Vidu Q2 为代表的产品开始谈论 AI 演技时,我们知道下一个 AI 时代的内容新世界即将到来。
....
#Code World Model(CWM)
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
大模型的架构,要彻底进化了?
昨晚开始,AI 圈都在研究一个神奇的新物种 ——Code World Model(CWM)。
Meta 重组后的 AI 部门推出的首个重磅研究,是一个世界模型,用来写代码的。
,时长00:34
它和「传统」的大语言模型(LLM)思路不同,理论是这样的:
当人类进行计划时,我们会在脑海中想象不同行动可能带来的结果。当我们推理代码时,我们会在心中模拟其部分执行过程。当前一代的大语言模型在这方面表现不佳,往往难以做到真正的推理和模拟。那么,一个经过显式训练的代码世界模型(Code World Model)是不是能够开启新的研究方向呢?
Meta 刚发布的这个 CWM,是一个 320 亿参数的开放权重 LLM,以推动基于世界模型的代码生成研究。
CWM 是一个稠密的、仅解码器结构的 LLM,支持最长 131k tokens 的上下文长度。独立于其世界建模能力,CWM 在通用编程与数学任务上表现出强大性能:
- SWE-bench Verified(含测试时扩展):pass@1 65.8%
- LiveCodeBench:68.6%
- Math-500:96.6%
- AIME 2024:76.0%
可见,虽然 CWM 的绝对性能还不算太高,但它在 30B 级别模型的横向对比上性能已算不错。
SWE-bench Verified pass@1 分数
为了提升代码理解能力,而不仅仅局限于从静态代码训练中学习,Meta FAIR CodeGen 团队在 Python 解释器和智能体式 Docker 环境中使用了大量观测 - 动作轨迹进行中间训练(mid-train),并在可验证编码、数学和多轮软件工程环境中进行了大规模多任务推理强化学习(RL)。
为支持进一步的代码世界建模研究,Meta 开放了模型在 中间训练(mid-training)、SFT 和 RL 阶段的检查点。
- 论文标题:CWM: An Open-Weights LLM for Research on Code Generation with World Models
- 论文链接:https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
- 模型权重:https://ai.meta.com/resources/models-and-libraries/cwm-downloads/
- HuggingFace:https://huggingface.co/facebook/cwm
借助 CWM,Meta 提出了一个强大的测试平台,以探索世界建模在改进代码生成时的推理与规划能力方面的机会。
该研究展示了世界模型如何有益于智能体式编码,使得 Python 代码执行能够逐步模拟,并展示了推理如何从这种模拟中受益的早期结果。
在该研究中,Meta 似乎从传统开发的过程中汲取了灵感。优秀程序员会在上手写代码之前先在脑内推演,而现在基于大语言模型的代码生成工具,是在基于海量数据生成对相关代码的「模仿」。看起来像是对的,和真正理解写出的代码之间总会有点 gap。
一个明确训练的代码世界模型,应该能够预测自己行为的后果,进而作出判断实现有效的决策。
有一个很有意思的例子,大模型总是会犯些低级错误,比如数不清楚「strawberry」里有几个「r」。
而采用 CWM,就可以对一段统计 "strawberry" 中字母 "r" 的代码执行过程进行追踪。可以将其类比为一个神经版的 pdb —— 你可以将其设置在任意初始帧状态下,然后推理过程就能够在 token 空间中调用这一工具来进行查询。
CWM 的 Python 跟踪格式。 在给定源代码上下文与跟踪起始点标记的情况下,CWM 预测一系列的调用栈帧,表示程序状态及相应的执行动作。
CWM 模型基于大量编码数据和定制的 Python + Bash 世界建模数据进行训练,使其能够模拟 Python 函数的执行以及 Bash 环境中的智能体交互。
在 Meta 进行的更多实验中,CWM 在有无测试时扩展(tts)的情况下均达到了同类最佳性能,分别取得了 65.8% 和 53.9% 的成绩。需要注意的是,GPT-oss 的分数是基于 500 道题中的 477 道子集计算得出的。
CWM 与基线模型在 Aider Polyglot 上的结果,取自官方排行榜。
在 SWE-bench Verified 上,结合本文提出的 best@k 方法与多数投票(majority voting)的测试时扩展(TTS),能够显著提升 CWM 的 pass@1 得分,如图(a)所示。
在 Aider Polyglot 基准上,采用整文件编辑格式(whole file edit format)时,CWM 在不同编程语言上的准确率表现如图(b)所示。
Terminal-Bench 上 CWM 与各基线模型的结果,取自官方排行榜。
BigOBench 结果
在时间与空间复杂度的预测和生成两类任务上,将 CWM 与 Qwen3-32B(带推理能力)、Qwen3-coder-30B 以及 Gemma-3-27B 进行了对比。在时间复杂度预测与生成的全部指标上,CWM 均超越了基线模型。在空间复杂度生成方面,CWM 在仅代码模式下的 pass@1 上取得最佳成绩,并在其余指标中排名第二。
Meta 团队的愿景是让代码世界模型弥合语言层面的推理与可执行语义之间的鸿沟。
消融实验已经表明,世界建模数据、Python 执行轨迹以及可执行的 Docker 环境,能够直接提升下游任务表现。更广泛地说,CWM 提供了一个强有力的试验平台,支持未来在零样本规划、xx的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究。
世界模型应当能够改进强化学习,因为那些已经熟悉环境动态的智能体,可以更专注于学习哪些动作能够带来奖励。尽管如此,要在预训练阶段跨任务地持续发挥世界模型的优势,仍需要进一步研究。最终,能够推理自身动作后果的模型,将在与环境的交互中更为高效,并有望扩展其能够处理的任务复杂度。
更多细节,请参阅原论文。
....
#RoboBrain-Audio(FLM-Audio)
xx智能从此「边听边说」,智源研究院开源原生全双工语音大模型
语音交互作为人机通信的关键接口,长期以来受限于高延迟、低自然度的交替式对话架构。为突破这一瓶颈,北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学,正式发布 RoboBrain-Audio(FLM-Audio) —— 首个支持 “自然独白 + 双训练范式” 的原生全双工语音对话大模型。
RoboBrain-Audio 对话样例,xxx,1分钟
在一段自然对话音频中,用户连续提出多个不同问题,并多次在模型回答过程中打断。RoboBrain-Audio 始终能够迅速停顿当前输出、准确理解新的问题并即时作答,展现出真实交流中所需的全双工、强鲁棒性与高自然度。
RoboBrain-Audio 采用原生全双工 (Native Full-duplex) 架构,相比传统的 TDM(时分复用)模型在响应延迟、对话自然度上实现飞跃式提升,同时语言理解能力显著强于其他原生全双工模型,标志着xx智能体从 “能听会说” 向 “边听边说” 的交互能力跃迁。
根据公开数据,当前业界训练音频基座模型时使用的数据量已达到上千万乃至上亿小时,这些模型在音色克隆和长回复生成上更具优势,而 RoboBrain-Audio 仅使用 100 万小时 (业界数据量的 1%) 数据训练,不但回复质量满足日常交互需求,而且具有响应模式更为敏捷自然等优势,尤其适配xx场景。RoboBrain-Audio(FLM-Audio)相关论文已公开发布,模型与代码均已开源。
- 论文链接:https://arxiv.org/abs/2509.02521
- Hugging Face 模型页:https://huggingface.co/CofeAI/FLM-Audio
- GitHub 代码库:https://github.com/cofe-ai/flm-audio
为什么必须是 “原生全双工”?
从 TDM 到同步对话的演进
现有的语音对话模型,例如 Kimi-Audio, MiMo-Audio 等,多采用时分复用(TDM) 架构,即将听、说、文本等多个通道的输入和输出交织在同一序列中处理。虽然实现简单,但这种交织会使主模型总序列长度过长,计算开销随通道数急剧增加。同时,TDM 不善于处理实际、开放场景中快速变化的输入:当用户频繁打断时,模型的反应延迟受限于外部 chunk 机制,通常高达 2 秒,更无法实现 “边听边说” 等更类人的响应模式。这些因素都限制了 TDM 架构的实时交互体验。
相反,原生全双工(Native Full-Duplex )架构(如 Moshi)将多通道信息在每一时间步合并处理,也就是支持 “边听,边想,边说”,不但避免了序列长度爆炸,而且可以将打断响应的延迟降至最低 80ms 级别。然而,当前的原生全双工模型依赖词级对齐策略,需为每个词标注精确的语音时间戳,并将连续的文本 token 打散。该策略不仅成本高昂,还会破坏预训练语言模型的能力,导致指令跟随性能下降。
RoboBrain-Audio(FLM-Audio) 在采用最先进的原生全双工架构的基础上,彻底摆脱了 “词级对齐” 的工程枷锁,不再依赖高成本、易出错的精细时间标注,为模型训练效率与泛化能力打开新空间。
核心创新:自然独白对齐 + 双训练
1. 自然独白:从 “词对齐” 到 “句对齐”
RoboBrain-Audio 弃用词级时间戳,创新性地在全双工实时框架下引入 “自然独白(Natural Monologue)” 对齐机制:
- 完整句子先生成 → 让语言模型自由发挥,不被 special token 阻断;
- 语音通道异步生成 → 按句异步朗读,类比人类 “先想后说”;
- 等待机制与打断处理 → 可被中断、可并发听说,支持真正的全双工交互;
- 只需句级标注 → 降低训练数据成本、避免精细对齐误差;
这一设计保留了语言大模型在生成连贯性和指令理解上的天然优势,使模型更自然、更强大。此外,自然独白机制还有效解决了部分词语(尤其是数字)的上下文依赖性发音问题。在传统词级对齐策略中,模型往往需要在词刚被解码时立即输出对应语音,这会导致在缺乏完整上下文时出现错误发音(如 “2025” 可能读作 “两千零二十五” 还是 “二零二五” 需依语境判断)。而自然独白允许模型先完成整个句子的文本生成,再统一决定最自然的语音表达方式,从而提升发音准确性和语言连贯性,避免 “听感割裂”。
2. 语音新训练范式:后训练 + 有监督微调,构建 “听说能力” 全闭环
模型训练分为两个阶段,共四个子阶段,分别模拟语音识别(ASR)、语音合成(TTS)及交互对话任务:
后训练阶段(Post-Training):赋予模型 “听” 和 “说” 的基础能力
- 数据:在第一子阶段使用约 100 万小时音频 - 文本对,在第二子阶段额外引入开源人工精标对齐数据。
- 双格式组织:同一份数据被组织成两种格式交替训练:
- TTS 风格(文本领先):文本通道先出现完整句子,语音通道延迟 2 个 token 开始输出。模拟语音合成(TTS) 任务。
- ASR 风格(语音领先):语音通道先出现输入音频,文本通道随后输出完整转录文本。模拟语音识别(ASR) 任务。
- 目的:让模型同时掌握 “听写”(ASR)和 “朗读”(TTS)这两项核心技能,为后续的对话任务打下坚实基础。
有监督微调阶段(SFT):塑造对话与全双工能力
- 数据:使用 20 万条合成的高质量多轮对话数据,语音由 700 + 种人声通过 TTS 系统生成。
- 核心子阶段:
- SFT-1(半双工过渡阶段):采用 “ASR-Response-TTS” 格式。模型先听完用户整句输入,将其转写为文本(ASR),再生成文本回复并转换为语音(TTS)。此阶段巧妙地融合了后训练学到的 ASR 和 TTS 能力。
- SFT-2(全双工最终阶段):采用 “Response-TTS” 格式。隐藏 ASR 监督信号,模型必须直接从音频输入理解用户意图,并生成回复。在此基础上,引入用户随机打断,模型学会在 0.5 秒内停止当前输出并响应新输入,从而获得全双工交互能力。
系统实验:ASR、TTS、对话性能在原生双工模型中全面领先
通过系列实验,科研人员系统性地评估了 RoboBrain-Audio 在音频理解、音频生成和全双工对话三个核心任务上的性能,并通过消融实验验证了其关键设计选择的有效性。
1. 音频理解
该工作通过自动语音识别(ASR)和语音问答(Spoken QA)两项任务,在 benchmark 上进行评测,实验结果表明,RoboBrain-Audio 在中文 ASR(Fleurs-zh)上优于非全双工架构的 Qwen2-Audio;在均使用原生全双工架构的前提下,RoboBrain-Audio 使用更少的后训练数据在 LibriSpeech-clean 上显著优于 Moshi,印证了自然独白和双训练的优势。
2. 音频生成
该工作通过文本转语音(TTS)任务,对模型的音频生成能力进行评测。分别在 Seed-TTS-en(英文)、Seed-TTS-zh(中文)两个数据集上进行模型能力的评估。RoboBrain-Audio 的 WER 与专业 TTS 模型(如 Seed-TTS、CosyVoice2)接近,表现优秀。SIM 分数较低,原因是其未针对音色克隆进行专门优化。
3. 全双工对话
该工作通过多轮语音对话任务,采取自动评估(使用 DeepSeek-V3 对回答质量评分(0–10))和人工评估(5 名标注员从 4 个维度评分(1–10))两种方式,与 Qwen2.5-Omni 模型(非原生双工)进行对比。RoboBrain-Audio 在生成文本内容质量接近的前提下,在流畅度、响应速度等用户体验相关指标上取得领先,体现了自然独白设计能够弥补原生全双工模型的文本能力短板,同时充分发挥其天然架构优势。
RoboBrain-Audio 的生态意义:
丰富 RoboBrain 全栈体系,迈向xx智能体
对于 “原生全双工” 框架而言,RoboBrain-Audio 的自然独白策略是对音频 - 文本对齐方式的根本性革新,而双训练范式则是确保这一策略成功实现的工程保障。两者结合,使模型在数据效率(更少的数据)、性能表现(更强的语言能力与更低的延迟)和用户体验(更自然的对话)上实现了全面突破,为构建真正智能的xx语音交互 Agent 提供了新的可复制范式。
RoboBrain-Audio 并非孤立产品,是智源 RoboBrain 系列面向 “xx智能” 的关键能力载体:
- 已有的 RoboBrain 系列模型专注于xx感知、规划与操作;
- RoboBrain-Audio 赋能语音理解与自然语言交互;
- 两者结合,将加速构建 “听懂人话、看懂世界、动手做事” 的机器人智能体。
未来,团队将持续深度整合 RoboBrain-Audio 的强语音交互能力与 RoboBrain 在任务规划、物体感知等方面的能力,实现自然语音交互驱动下复杂任务的执行,持续提升机器人在导览导购、家庭等场景的服务效能。
...
#xxx
....
#xxx
.....
#xxx
....
#xxx
....
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
更多推荐
所有评论(0)