面壁智能发布 MiniCPM-o 4.5,端侧全双工实时音视频交互;海马爸比推出首款 AI 魔法打印机,语音生图+即时打印丨日报
我们欢迎更多的小伙伴参与。

开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、涵盖 1 万小时语音数据:大规模川渝方言语料库 WenetSpeech-Chuan 正式开源
针对拥有约 1.2 亿母语使用者的川渝方言面临标注资源匮乏、语音技术发展受限的现状,西北工业大学音频语音与语言处理研究组联合希尔贝壳、中国电信人工智能研究院、南京大学及 Wenet 开源社区,正式发布并开源了首个大规模多维标注川渝方言语音语料库——WenetSpeech-Chuan。
该语料库填补了方言领域大规模开源数据的空白,解决了现有数据集规模小、场景覆盖有限且缺乏元数据的问题。**WenetSpeech-Chuan 包含 10,000 小时的高质量语音数据,涵盖短视频、综艺、直播等 9 大真实场景。**通过自主设计的 Chuan-Pipeline 处理框架,该项目实现了从原始语音到丰富注释语料的系统化构建,具体技术亮点包括:
-
多维精细标注:除了基础的 ASR 转录,数据集还提供了文本置信度、说话人情感(7 类)、年龄(5 个阶段)、性别以及语音质量评分(WVMOS)等元数据,为自监督学习和风格建模提供了数据基础。
-
LLM-GER 转录框架:采用基于大语言模型的生成式纠错技术,融合 FireRed-ASR 等三个系统的初步结果,利用 Qwen3 进行语义一致性纠错,使转录准确率平均提升约 15%。
-
多模态标点预测:融合音频停顿特征与文本语义,通过双向 LSTM 模型生成贴合真实语气的标点符号。
为支持严格的系统评估,团队同步发布了全面的评测基准 WSC-Eval。其中,WSC-Eval-ASR 包含人工精标的「简单」与「困难」声学子集;WSC-Eval-TTS 则涵盖了特定词汇短句及包含俚语、绕口令的长句,用于测试语音合成的泛化能力。实验数据显示,基于该语料库训练的模型在川渝方言 ASR 与 TTS 任务中表现优异,性能超越了 FireRedASR-AED 等当前最先进系统,并在部分指标上与商业系统持平。
目前,WenetSpeech-Chuan 的数据、代码、模型及技术报告已全部在 HuggingFace 和 GitHub 开源,这也是 ASLP 实验室继开源粤语数据集 WenetSpeech-Yue 后的又一重要成果。
项目主页链接:
https://github.com/ASLP-lab/WenetSpeech-Chuan
GitHub:
https://github.com/ASLP-lab/WenetSpeech-Chuan
(@音频语音与语言处理研究组)
2、Sarvam AI 将于 2 月 14 日发布 Sarvam Audio:基于 3B 参数 LLM 的全场景印度语语音模型

Sarvam AI 推出基于 Sarvam 3B 语言模型扩展的音频模型「Sarvam Audio」,支持 22 种印度语言及印度英语。该模型跳出传统 ASR 框架,通过引入上下文感知与格式控制,显著降低了多语混杂场景下的字错率,性能超越 Gemini 3 Flash 与 GPT-4o Transcribe。
-
五种推理时受控转录模式:支持通过 API 在推理阶段指定输出格式,包括逐字稿、规范化、混合语(Code-Mixed,保留英文术语)、罗马化及智能翻译。
-
长音频多角色识别:支持最高 60 分钟长音频处理,具备 SOTA 级别的 WDER(词级别角色识别错误率)表现,能够准确分离最多 8 名同时交谈或语音重叠的发言者。
-
基于上下文的 ASR 增强:利用「Sarvam 3B」的 LLM 底座,模型可根据对话历史或领域知识(如金融、电商)纠正同音异义词(如将数字「9」与「No」区分),并在低信噪比环境下通过语义重构缺失片段。
-
原生语音指令执行:实现端到端的参数提取与函数调用,无需经过「语音转文字再输入 LLM」的两阶段流程,大幅降低交互延迟并减少信息流失。
Sarvam Audio 将很快在 Sarvam Dashboard 上线,为构建适应印度本土需求的新一代语音应用提供基础设施。
( @Sarvam AI Blog、@pratykumar@X)
3、面壁智能发布 MiniCPM-o 4.5:9B 参数实现全双工多模态流式交互,OCR 与视觉性能超越 GPT-4o


面壁智能 (OpenBMB) 发布 MiniCPM-o 4.5,这是其端到端多模态系列的最新进展。该模型基于 9B 参数,集成了 SigLip2、Whisper-medium、CosyVoice2 与 Qwen3-8B,首次在端侧量级实现了具备主动交互能力的「全双工」实时音视频交互体验。
-
端到端全双工 TDM 架构:采用时分复用(Time-Division Multiplexing)机制,将并行的音视频流划分为毫秒级周期时间片进行顺序处理,支持模型同时进行视频/音频输入与文本/语音并发输出,彻底解决传统级联架构的相互阻塞问题。
-
1Hz 频率的主动交互机制:LLM 以每秒 1 次的频率持续监测外部环境,可根据视频流与音频流的实时变化主动发起评论或提醒,而非仅被动响应指令。
-
视觉与 OCR 性能对标顶级闭源模型:在 OpenCompass 视觉综合评估中获得 77.6 分,超越 GPT-4o 与 Gemini 2.0 Pro;支持 1.8M 像素图像与 10fps 视频输入,在 OmniDocBench 文档解析测试中优于 Gemini 1.5 Flash。
-
原生语音克隆与角色扮演:支持双语实时语音对话,可通过极短参考音频实现高保真语音克隆(性能优于 CosyVoice2),并支持在 System Prompt 中定义特定人设进行交互。
-
全栈端侧推理支持:提供 16 种尺寸的 GGUF 量化模型,适配 llama.cpp、Ollama、vLLM、SGLang 等框架;支持通过 WebRTC 在 PC/MacBook 上实现低延迟本地化运行。
模型已在 Hugging Face、GitHub 与 Ollama 同步上线,支持商业闭源模型的本地化替代。
GitHub:
https://github.com/OpenBMB/MiniCPM-o?tab=readme-ov-file#minicpm-o-45
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-o-4_5
体验链接:
https://minicpm-omni.openbmb.cn/
( @OpenBMB@X、@GitHub)
02 有亮点的产品
1、索尼降噪豆 6 曝光,有望本月发布

据《The Mac Observer》报道,近日,索尼「降噪豆 6」WF‑1000XM6 的泄露信息流出,显示新款在设计、音频处理与连接稳定性方面均有不同程度的升级,同时价格也将上调至美国约 329 美元、欧洲约 299 欧元。
泄露的渲染图显示,WF-1000XM6 的外观延续 XM5 的整体风格,但改用哑光材质,并配备更小的胶囊形充电盒,耳机本体支持 IPX4 防水并标配泡沫耳塞。WF‑1000XM6 的主要功能升级包括:
-
DSEE Ultimate 本地运行:首次在索尼 TWS 耳机上实现实时 AI 音频升频,提升压缩音频细节;
-
MediaTek MT2855 芯片:提供更快处理能力,可能带来更好的降噪与能效表现;
-
提升天线增益:改善无线连接稳定性,减少断连情况;
-
三麦克风系统:每侧耳机配备 3 个外置麦克风,用于通话与降噪处理。
报道指出,索尼预计在今年 2 月中旬开启 WF-1000XM6 的预购,并在 2 月下旬正式上市。
( @APPSO)
2、海马爸比推出首款 AI 魔法打印机:支持语音生图,进军儿童 AI 教育市场

据 2 月 2 日消息,海马爸比正式推出首款 AI 魔法打印机。该产品面向 2 岁以上儿童群体,标志着该品牌从母婴 AI 看护专家向儿童 AI 教育伙伴方向进行战略拓展。
这款 AI 魔法打印机定位为「创造力启蒙工具」,核心逻辑在于「语音生图+即时打印」,并搭载配套工具以完成互动闭环。这一模式与海外市场获得 700 万美元投资的 Stickerbox AI 贴纸打印机类似,通过「语音描述—AI 生成—即时打印」的流程,激发儿童的想象力。海马爸比此次布局 AI 教育硬件,显示了其推动品牌从看护服务向「AI 教育伙伴」转型的计划。
在产品功能与配置方面,该设备具备以下特点:
-
功能集成:集成了早教机、早教卡、海量涂色本及陪伴玩具四种产品能力。
-
硬件规格:配备 3.2 英寸屏幕,支持 300dpi 打印能力。
-
AI 技术:内置儿童专属大模型,支持语音生成线稿,并配备双语启蒙及早教卡设置功能。
-
安全保障:采用经安全认证的热敏纸,并强调对隐私与信息安全的保障。
公开资料显示,海马爸比是星巡集团旗下的智慧母婴品牌,长期深耕 0—3 岁婴儿看护领域。其核心产品智能婴儿看护器在 2022 年至 2024 年间销量位居全国第一,产品覆盖全球 50 余个国家,累计销量已突破 150 万台。
(@即智 Ultra)
3、Lotus Health 获 3500 万美元 A 轮融资:推出 24/7 免费「AI 医生」,由人类医生审核兜底
医疗 AI 初创公司 Lotus Health 宣布完成 3500 万美元的 A 轮融资,致力于打造能够免费为患者看病的「AI 医生」。本轮融资由 CRV 和 Kleiner Perkins 共同领投,使其融资总额达到 4100 万美元。
该公司由 KJ Dhaliwal 创立,他曾于 2019 年以 5000 万美元出售了南亚约会应用 Dil Mil。Dhaliwal 表示,自幼充当父母医疗翻译的经历让他深感美国医疗体系的低效,而大语言模型的出现提供了改善这一现状的契机。
Lotus Health 于 2024 年 5 月推出了 Lotus Health AI,这是一个免费的初级保健提供平台,支持 50 种语言,提供 24/7 全天候服务。目前,许多人已开始向 ChatGPT 等 AI 咨询健康问题,但 Lotus 不止步于聊天,而是推进到实际的医疗护理环节,包括诊断、开具处方和专科转诊。
本质上,Lotus 构建了一个像真实医疗机构一样运作的「AI 医生」,其拥有在全美 50 个州运营的执照、医疗事故保险、符合 HIPAA 标准的系统以及对患者记录的完全访问权限。
在运行机制上,Lotus 开发了一种 AI 模型,能够结合最新的循证医学研究、患者病史和临床问答来生成治疗方案。 其运作特点如下:
-
AI 主导问诊:绝大部分工作由 AI 完成,它被训练成像医生一样提出问题。
-
人类医生兜底:鉴于 AI 模型可能产生「幻觉」,公司安排了来自斯坦福、哈佛和加州大学旧金山分校等顶尖机构的认证医生,对最终诊断、实验室医嘱和处方进行审核签字。
Lotus 亦承认虚拟护理的局限性。对于紧急健康问题,平台会引导患者前往最近的急救中心;若需体检,则转诊至线下医生。在初级保健医生短缺的背景下,Lotus 声称其接诊量可达传统诊所的 10 倍。
领投方 CRV 的合伙人 Saar Gur 认为,疫情期间建立的远程医疗框架结合 AI 的突破,使 Lotus 能够克服监管和工程障碍,试图从根本上重构初级保健模式。
目前,Lotus 面临来自 Doctronic 等对手的竞争,其差异化在于提供完全免费的服务。Dhaliwal 表示,未来的商业模式可能包括赞助内容或订阅,但当前重心仍是产品开发与用户增长。
相关链接:https://lotus.ai/
( @TechCrunch)
03 有态度的观点
1、QuestMobile:AI 成移动互联网最强增长引擎,AIGC 应用月活净增超 2 亿

昨天,调研机构 QuestMobile 发表最新研报,显示 AI 已成为今年移动互联网增长的最核心驱动力,其中 AIGC APP 与插件生态贡献了最显著的增量。
AIGC 应用月活用户规模在去年实现净增超 2 亿,同比增速达到 150.4%,AI 插件月活规模则达到 6.96 亿,同比提升 37.8%,成为推动用户时长增长与生态重构的关键力量。
此外,小程序生态在微信、支付宝及百度平台持续扩张,生活服务成为三大平台的核心场景。微信平台中,生活服务类月活超千万的小程序数量达到 68 个,远高于同类 APP 的 36 个,平台流量聚合作用明显。
同时,短剧内容的持续走热推动视频类小程序快速增长,微信与抖音生态中相关小程序在 TOP100 中占比分别达到 17% 与 36%。
在整体趋势之外,报告还披露了多个行业与场景的细分变化:
-
移动互联网全网月活规模达到 12.76 亿,用户月人均使用时长为 186.2 小时,同比提升 8.4%,增长主要来自 AI 场景渗透。
-
同程旅行、淘宝闪购等应用依托小程序实现全景流量突破,去年 12 月全景流量分别达到 2.45 亿与 2.21 亿。
-
智能电视终端月活达到 2.89 亿台,OTT 应用如银河奇异果、CIBN 酷喵影视、云视听极光均超过 6000 万台,家庭大屏成为新的流量枢纽。
-
生活服务、旅游、金融、汽车等行业普遍呈现「APP + 小程序 + 内容」的多端协同趋势。
-
AI 应用行业加速多端布局,新浪新闻生态流量达到 3.5 亿,智慧小浪 AI 插件成为新的资讯入口;宝宝树孕育深化育儿场景 AI 化。
-
品牌侧增长显著,特步与李宁旗下小程序月活分别同比增长 134.8% 与 190.3%,餐饮与零售行业依托小程序实现用户规模提升。
(@APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考
更多推荐



所有评论(0)