Qwen3-Omni发布:端到端全模态Thinker-Talker架构;Meta真实世界智能体基准Kimi K2开源最佳|日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、阿里 Qwen 发布「Qwen3-Omni」:端到端全模态 AI 大模型,性能直逼 GPT-4o
阿里巴巴 Qwen 团队近日发布其最新一代 30B 参数「全模态 AI 大模型」Qwen3-Omni。这是一个端到端的开源多模态模型,能够同时处理文本、图像、音频、视频输入,并实时生成流式文本和自然语音输出。其性能在 36 项音视频基准测试中,有 22 项达到 SOTA(State-Of-The-Art,最优性能)水平,直逼 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.5 Pro,并支持免费商用,为多模态 AI 交互树立了新标杆。
关键亮点
-
「端到端」全模态能力与「不降智」: Qwen3-Omni 采用统一架构,直接处理文本(119 种语言)、图像、音频(19 种语言,最长 30 分钟)和视频输入,并实时生成流式文本和语音输出(10 种语言)。实现「全模态不降智」,纯模型端到端音频对话延迟低至 211ms,视频对话延迟低至 507ms,交互体验如真人对话般自然流畅。
-
创新「Thinker-Talker」架构: 采用基于「混合专家 (MoE) 架构」的 Thinker(负责文本语义理解与生成)和 Talker(专注于流式语音 Token 生成)双核架构。配合基于 2000 万小时数据训练的 AuT 音频编码器以及 MTP(Multi-Token Prediction)和 Code2Wav 模块,确保深度语义理解和毫秒级实时语音生成,兼顾效率与能力。
-
音视频性能卓越,单模态能力稳定: 在 36 项音视频基准测试中,32 项取得开源模型最佳效果,22 项达到 SOTA 水平,性能超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。同时,其文本(MMLU-Redux、AIME25 评测)和图像(MMMU、CountBench 评测)单模态性能与专用模型表现相当,验证「全模态不降智」。
-
广泛多语言支持与场景优化: 支持 119 种文本语言输入、19 种语音输入语言和 10 种语音输出语言,并提供多种音色。支持长达 30 分钟的音频内容理解,满足会议记录、课程转录等长语音场景,并实现多语种(包含多地方言)互译。
-
高度灵活性与开源社区贡献: 支持通过 system prompt 定制回复风格、语气或人设,支持工具调用 (Function Call) 实现与外部工具或 API 的高效集成。已在 Hugging Face、ModelScope、DashScope 和 GitHub 等平台开放并开源 (Apache 2.0),提供轻量版 Qwen3-Omni-Flash 模型和专注于音频描述的 Qwen3-Omni-30B-A3B-Captioner 模型。
Qwen3-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开放下载。用户可通过 Qwen Chat(点击对话框右下角「使用语音和视频聊天」)体验 Qwen3-Omni-Flash 模型。专注于音频描述的 Qwen3-Omni-30B-A3B-Captioner 模型已开源。
💻 GitHub 开源地址
https://github.com/QwenLM/Qwen3-Omni
🤖 模型库
https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
🎬 在线 Demo 试玩
https://chat.qwen.ai/?models=qwen3-omni-flash
(@Qwen 团队 / 阿里巴巴)
2、Qwen 发布「Qwen3-Max」:万亿参数 LLM 问世,代码生成与智能体能力再进一步
Qwen 团队正式发布了其迄今为止规模最大、能力最强的模型 Qwen3-Max。该系列共包含三个版本:Base、Instruct 和 Thinking,旨在满足不同的应用需求。
-
Qwen3-Max-Base 作为该系列的基础版本,其总参数量超过 1 万亿(1T),并在 36 万亿(36T)Token 的海量数据上进行了预训练,沿用了 Qwen3 系列一贯的模型结构设计范式。
-
Qwen3-Max-Instruct 的正式发布版本展现出卓越性能,特别是在代码生成与智能体表现方面表现出色。其预览版此前已在 LMArena 文本排行榜上稳居全球前三,此次正式版的能力得到了进一步的显著提升。用户现已可在 Qwen Chat 上体验,并可通过 阿里云百炼 平台调用其 API。
-
Qwen3-Max-Thinking 是一个仍在训练中的推理增强版本,但已展现出前所未有的强大推理能力。该版本通过集成代码解释器并运用并行测试时计算技术,在极具挑战性的数学推理基准测试 AIME 25 和 HMMT 上均取得了满分。Qwen 团队表示,期待在不久的将来公开发布这一版本。
相关链接:
https://help.aliyun.com/zh/model-studio/models#qwen-max-cn-bj
(@通义千问)
3、Meta 发布真实世界智能体评估基准,Kimi K2 开源最佳
Meta 近日发布了 AI 智能体新一代基准测试「Gaia2」及配套的开源框架「Agents Research Environments (ARE)」。此举旨在解决现有 AI 智能体评估环境过于理想化,缺乏对真实世界复杂性(如歧义、时效性、工具失败)考量的问题。Gaia2 通过模拟更复杂、动态、嘈杂的现实场景,配合 ARE 提供的运行、调试和分析工具,帮助开发者更准确地评估、调试和构建出能应对歧义、规划行动、适应变化的可靠 AI 智能体。
关键亮点
-
革新 AI 智能体评估: 针对现有 Agent 评估环境缺乏真实世界灵活性、无法反映开放世界「混乱」现实的痛点,「Gaia2」作为 GAIA 的升级版,致力于分析更复杂的智能体行为。
-
「读写」交互与复杂性管理: Gaia2 从 GAIA 的「只读」变为「读写」基准,专注于交互行为和复杂性管理。评估智能体在模糊指令、时间敏感查询,以及带有控制性故障和噪声的环境中的表现。
-
七大核心评估维度: 涵盖执行(多步指令、工具使用)、搜索(跨源信息收集)、歧义处理(解决冲突请求)、适应性(响应模拟变化)、时间/时序推理(时间敏感行动)、智能体协作(Agent 间通信)、噪声容忍(API 失败、环境不稳定)等七大任务组。
-
配套 ARE 开源框架: 「Agents Research Environments (ARE)」是一个开源的执行环境,模拟真实世界应用(如短信、日历、联系人、文件系统)的智能手机界面,并允许 Agent 通过工具调用访问。ARE 自动记录智能体所有交互,生成结构化轨迹(包含工具调用、API 响应、模型思考、时序指标等),便于深度分析和调试。
-
主流模型性能对比: Gaia2 对 GPT-5、Gemini 2.5 Pro、Kimi K2 等主流 LLM 进行了评估。结果显示,GPT-5 在高推理模式下得分最高,Kimi K2 是表现最佳的开源模型。
-
现有挑战: 目前所有模型在歧义处理、适应性、噪声容忍和时间/时序推理方面仍面临巨大挑战,尤其时间敏感性任务最难攻克。除了原始分数,Gaia2 也强调成本效率(LLM 调用次数和输出 Token),提供成本-性能帕累托曲线分析。
发布计划与范围
-
Gaia2 数据集已在 CC by 4.0 许可下发布。
-
Meta Agents Research Environments (ARE) 框架已在 MIT 许可下开源。
-
开发者可通过 pip install meta-agents-research-environments 安装 ARE,并使用命令行工具运行 Gaia2 基准测试。
(@Meta AI Blog)
02有亮点的产品
1、Sellible 推出 AI 销售陪练平台:与 AI 买家对话训练销售技能
Sellible 是一款专为创始人及销售团队设计的 AI 销售陪练平台。它通过与高仿真的 「AI 买家」 进行实战角色扮演,让销售人员能够在无风险环境中练习销售对话、处理异议,从而迅速提升销售技能,有效避免在真实客户面前「试错」而错失宝贵商机。
关键亮点
-
「AI」销售角色扮演: 核心功能是允许销售人员与 AI 买家进行真实感极强的销售对话角色扮演。
-
无风险实战演练: 提供一个安全的练习环境,销售人员可以自由犯错、反复尝试,无需担心烧掉真实客户线索。
-
掌握异议处理: 针对各种销售情境,帮助销售人员系统性地练习和掌握应对客户异议的技巧。
-
「AI Voice Agents」支持: 平台利用 AI 语音智能体 技术,提供高度逼真和互动的陪练体验,模拟多样化的买家反馈。
-
赋能销售能力: 旨在帮助创始人及销售团队快速建立和强化销售能力,提升整体销售效率和成交率。
(@Sellible)
2、PureTalk.ai 推出「RUTH®**」驱动的全能型对话 AI 平台:实现 24/7 人性化客户互动**
PureTalk.ai 近日推出其基于专利「RUTH®」引擎打造的「全能型对话 AI 解决方案」。该平台集成了 AI Chatbots 和 AI Voice Agents 功能,旨在帮助企业在任何渠道实现 24/7 的自动化客户互动,提供真实、人性化的对话体验,彻底革新客户参与模式。
-
「RUTH®**」引擎驱动:** 平台由其专利支持的「RUTH®」引擎驱动,确保所生成对话的真实性和人性化,使其区别于传统 AI 交互。
-
「全能型对话 AI 解决方案」: 提供包括 AI Chatbots 和 AI Voice Agents 在内的全面对话 AI 功能,满足企业在文本和语音渠道的自动化需求。
-
24/7 客户互动自动化: 帮助企业实现全天候不间断的客户参与自动化,显著提升服务效率和响应速度。
-
跨渠道部署: 解决方案可在任何客户接触渠道部署和运行,确保在不同平台提供一致且高质量的客户体验。
-
真实、人性化对话: 核心目标是构建地道、类似人类的对话,从而增强客户满意度和品牌忠诚度。
(@PureTalk.ai)
03有态度的观点
1、普林斯顿学者提出:人工智能或仅为「普通技术」
普林斯顿大学计算机科学家 Arvind Narayanan 与 Sayash Kapoor,在今年早些时候发布了一篇引发争议的论文,提出将 AI 视为一种「普通技术」,而非具有超凡智能的革命性技术。
两位作者认为,当前对 AI 的极端预测——无论是乌托邦式的经济飞跃与人类永生,还是反乌托邦式的全面失业与灭绝威胁,都误解了其真实潜力。
该论文预测,AI 将遵循过去技术革命的轨迹,其经济影响是渐进的,而非颠覆性的。
作者指出,AI 的实际应用速度落后于创新速度,因为企业和个人需要时间来调整工作流程,这与一个世纪前工厂电气化耗时数十年的过程类似。
他们认为,AI 不会大规模地「窃取」工作岗位,而是会改变工作的性质,未来更多的工作将转变为配置、监控和控制 AI 系统,就像工业革命时工人从手动织布转向监督机器一样。
尽管这篇论文因其冷静的中间立场观点而备受关注,但也存在一些争议。
有评论认为,该论文可能过于轻视 AI 对劳动力市场的潜在冲击,并对其无法在说服力等方面,超越人类的预测显得过于自信。
(@APPSO)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
更多推荐
所有评论(0)