Qwen3-Omni发布：端到端全模态Thinker-Talker架构；Meta真实世界智能体基准Kimi K2开源最佳｜日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。

声网

347人浏览 · 2025-09-26 14:36:46

声网 · 2025-09-26 14:36:46 发布

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、阿里 Qwen 发布「Qwen3-Omni」：端到端全模态 AI 大模型，性能直逼 GPT-4o

阿里巴巴 Qwen 团队近日发布其最新一代 30B 参数「全模态 AI 大模型」Qwen3-Omni。这是一个端到端的开源多模态模型，能够同时处理文本、图像、音频、视频输入，并实时生成流式文本和自然语音输出。其性能在 36 项音视频基准测试中，有 22 项达到 SOTA（State-Of-The-Art，最优性能）水平，直逼 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.5 Pro，并支持免费商用，为多模态 AI 交互树立了新标杆。

关键亮点

「端到端」全模态能力与「不降智」： Qwen3-Omni 采用统一架构，直接处理文本（119 种语言）、图像、音频（19 种语言，最长 30 分钟）和视频输入，并实时生成流式文本和语音输出（10 种语言）。实现「全模态不降智」，纯模型端到端音频对话延迟低至 211ms，视频对话延迟低至 507ms，交互体验如真人对话般自然流畅。
创新「Thinker-Talker」架构： 采用基于「混合专家（MoE）架构」的 Thinker（负责文本语义理解与生成）和 Talker（专注于流式语音 Token 生成）双核架构。配合基于 2000 万小时数据训练的 AuT 音频编码器以及 MTP（Multi-Token Prediction）和 Code2Wav 模块，确保深度语义理解和毫秒级实时语音生成，兼顾效率与能力。
音视频性能卓越，单模态能力稳定： 在 36 项音视频基准测试中，32 项取得开源模型最佳效果，22 项达到 SOTA 水平，性能超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。同时，其文本（MMLU-Redux、AIME25 评测）和图像（MMMU、CountBench 评测）单模态性能与专用模型表现相当，验证「全模态不降智」。
广泛多语言支持与场景优化： 支持 119 种文本语言输入、19 种语音输入语言和 10 种语音输出语言，并提供多种音色。支持长达 30 分钟的音频内容理解，满足会议记录、课程转录等长语音场景，并实现多语种（包含多地方言）互译。
高度灵活性与开源社区贡献： 支持通过 system prompt 定制回复风格、语气或人设，支持工具调用（Function Call） 实现与外部工具或 API 的高效集成。已在 Hugging Face、ModelScope、DashScope 和 GitHub 等平台开放并开源（Apache 2.0），提供轻量版 Qwen3-Omni-Flash 模型和专注于音频描述的 Qwen3-Omni-30B-A3B-Captioner 模型。

Qwen3-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开放下载。用户可通过 Qwen Chat（点击对话框右下角「使用语音和视频聊天」）体验 Qwen3-Omni-Flash 模型。专注于音频描述的 Qwen3-Omni-30B-A3B-Captioner 模型已开源。

💻 GitHub 开源地址

https://github.com/QwenLM/Qwen3-Omni

🤖 模型库

https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f

🎬 在线 Demo 试玩

https://chat.qwen.ai/?models=qwen3-omni-flash

（@Qwen 团队 / 阿里巴巴）

2、Qwen 发布「Qwen3-Max」：万亿参数 LLM 问世，代码生成与智能体能力再进一步

Qwen 团队正式发布了其迄今为止规模最大、能力最强的模型 Qwen3-Max。该系列共包含三个版本：Base、Instruct 和 Thinking，旨在满足不同的应用需求。

Qwen3-Max-Base 作为该系列的基础版本，其总参数量超过 1 万亿（1T），并在 36 万亿（36T）Token 的海量数据上进行了预训练，沿用了 Qwen3 系列一贯的模型结构设计范式。
Qwen3-Max-Instruct 的正式发布版本展现出卓越性能，特别是在代码生成与智能体表现方面表现出色。其预览版此前已在 LMArena 文本排行榜上稳居全球前三，此次正式版的能力得到了进一步的显著提升。用户现已可在 Qwen Chat 上体验，并可通过 阿里云百炼 平台调用其 API。
Qwen3-Max-Thinking 是一个仍在训练中的推理增强版本，但已展现出前所未有的强大推理能力。该版本通过集成代码解释器并运用并行测试时计算技术，在极具挑战性的数学推理基准测试 AIME 25 和 HMMT 上均取得了满分。Qwen 团队表示，期待在不久的将来公开发布这一版本。

02有亮点的产品

1、Sellible 推出 AI 销售陪练平台：与 AI 买家对话训练销售技能

Sellible 是一款专为创始人及销售团队设计的 AI 销售陪练平台。它通过与高仿真的 「AI 买家」 进行实战角色扮演，让销售人员能够在无风险环境中练习销售对话、处理异议，从而迅速提升销售技能，有效避免在真实客户面前「试错」而错失宝贵商机。

关键亮点

「AI」销售角色扮演： 核心功能是允许销售人员与 AI 买家进行真实感极强的销售对话角色扮演。
无风险实战演练： 提供一个安全的练习环境，销售人员可以自由犯错、反复尝试，无需担心烧掉真实客户线索。
掌握异议处理： 针对各种销售情境，帮助销售人员系统性地练习和掌握应对客户异议的技巧。
「AI Voice Agents」支持： 平台利用 AI 语音智能体技术，提供高度逼真和互动的陪练体验，模拟多样化的买家反馈。
赋能销售能力： 旨在帮助创始人及销售团队快速建立和强化销售能力，提升整体销售效率和成交率。

(@Sellible)

2、PureTalk.ai 推出「RUTH®**」驱动的全能型对话 AI 平台：实现 24/7 人性化客户互动**

PureTalk.ai 近日推出其基于专利「RUTH®」引擎打造的「全能型对话 AI 解决方案」。该平台集成了 AI Chatbots 和 AI Voice Agents 功能，旨在帮助企业在任何渠道实现 24/7 的自动化客户互动，提供真实、人性化的对话体验，彻底革新客户参与模式。

「RUTH®**」引擎驱动：** 平台由其专利支持的「RUTH®」引擎驱动，确保所生成对话的真实性和人性化，使其区别于传统 AI 交互。
「全能型对话 AI 解决方案」： 提供包括 AI Chatbots 和 AI Voice Agents 在内的全面对话 AI 功能，满足企业在文本和语音渠道的自动化需求。
24/7 客户互动自动化： 帮助企业实现全天候不间断的客户参与自动化，显著提升服务效率和响应速度。
跨渠道部署： 解决方案可在任何客户接触渠道部署和运行，确保在不同平台提供一致且高质量的客户体验。
真实、人性化对话： 核心目标是构建地道、类似人类的对话，从而增强客户满意度和品牌忠诚度。

(@PureTalk.ai)

03有态度的观点

1、普林斯顿学者提出：人工智能或仅为「普通技术」

普林斯顿大学计算机科学家 Arvind Narayanan 与 Sayash Kapoor，在今年早些时候发布了一篇引发争议的论文，提出将 AI 视为一种「普通技术」，而非具有超凡智能的革命性技术。

两位作者认为，当前对 AI 的极端预测——无论是乌托邦式的经济飞跃与人类永生，还是反乌托邦式的全面失业与灭绝威胁，都误解了其真实潜力。

该论文预测，AI 将遵循过去技术革命的轨迹，其经济影响是渐进的，而非颠覆性的。

作者指出，AI 的实际应用速度落后于创新速度，因为企业和个人需要时间来调整工作流程，这与一个世纪前工厂电气化耗时数十年的过程类似。

他们认为，AI 不会大规模地「窃取」工作岗位，而是会改变工作的性质，未来更多的工作将转变为配置、监控和控制 AI 系统，就像工业革命时工人从手动织布转向监督机器一样。

尽管这篇论文因其冷静的中间立场观点而备受关注，但也存在一些争议。

有评论认为，该论文可能过于轻视 AI 对劳动力市场的潜在冲击，并对其无法在说服力等方面，超越人类的预测显得过于自信。

(@APPSO)

在这里插入图片描述

写在最后：

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Java SpringBoot+Vue3+MyBatis 高校实验室智能管理系统系统源码｜前后端分离+MySQL数据库

2048 AI社区

微信公众号文章内容“没深度”？提示工程架构师的5个Prompt提升“价值感”（案例）

你有没有过这样的困惑？写了10篇职场经验文，读者评论“都是常识”；分享了自己的成长故事，别人说“像记流水账”；明明懂很多干货，写出来却像“白开水”，没人愿意转发。其实不是你没内容，而是没学会“引导自己的思考往深度走”——就像你有一堆积木，却不知道怎么搭成一座能让人“哇”的房子。提示工程（Prompt Engineering）就是帮你搭积木的“说明书”：它不是让AI替你写文章，而是用精准的“问题提示