MIAOYUN | 每周 AI 新鲜事儿（09.05-09.12）

9月8日，阿里通义千问团队正式推出新一代语音识别模型「Qwen3-ASR-Flash」，基于Qwen3基座模型训练，经海量多模态数据以及千万⼩时规模的ASR（自动语音识别）数据训练构建而成，实现了⾼精度⾼鲁棒性的语⾳识别性能，支持中文、英语、法语等11种语言及方言，具有自动分辨语种和过滤背景噪声的能力。该功能同时支持7张参考图输入，人物、背景、道具随意组合，还原度更高、真实感更强，还能脑洞大开自由

秒云

896人浏览 · 2025-09-15 09:49:47

秒云 · 2025-09-15 09:49:47 发布

本周AI领域迎来密集更新，Kimi、Qwen、微软、百度、字节、腾讯、生数、华为等多厂商模型竞相升级，图像、语音、编程等多模态能力持续突破；技术方面，Meta提出高效解码框架REFRAG，微软突破SFT-RL训练瓶颈，ChatGPT正式支持MCP等获重要进展；同时OpenAI首部AI电影定档2026，Cognition融资4亿美元登顶编程赛道，巨头百万期权抢人，AI进入“军备竞赛”白热化，一起来回顾本周发生的AI新鲜事儿吧！

AI 大模型

月之暗面推出「Kimi K2」模型的最新版本「0905」

9月5日，月之暗面发布「Kimi K2」模型的最新版本「0905」，该模型的核心升级点为Agentic Coding能力提升、上下文长度从128K拓展到256K、API支持高达60-100Token/s的输出速度、支持Claude Code。目前，Kimi应用和网页版中的K2模型已全量升级到「0905」最新版。

参考：Kimi K2 模型更新，带来更强的代码能力、更快的 API

通义千问上线超万亿参数的最大模型「Qwen3-Max-Preview」

9月6日，通义千问团队上线迄今为止最大的模型「Qwen3-Max-Preview」(Instruct)，参数超1万亿。该模型在内测中表现出更强的智能水平，更广的知识面，更优秀的对话能力，在Agent任务与指令遵循等方面拥有更强劲的性能。这证明规模化扩展（Scaling）仍然有效，更大的模型拥有更强的性能。

参考：上新！超万亿参数的Qwen3-Max-Preview来了

微软开源「rStar2-Agent」 AI Agent模型，仅14B参数超越「DeepSeek-R1」

9月8日消息，微软研究院近日开源了一款名为「rStar2-Agent」的 AI Agent 推理模型，该模型采用了智能体强化学习方法，仅有14B参数，但在AIME24数学推理测试中达到了80.6%的准确率，超越了671B参数的「DeepSeek-R1」（79.8%），二者的参数体量相差了将近48倍。

参考：微软开源3大突破AI Agent模型，仅140亿参数超越DeepSeek-R1

阿里通义千问推出新一代语音识别模型「Qwen3-ASR-Flash」

9月8日，阿里通义千问团队正式推出新一代语音识别模型「Qwen3-ASR-Flash」，基于Qwen3基座模型训练，经海量多模态数据以及千万⼩时规模的ASR（自动语音识别）数据训练构建而成，实现了⾼精度⾼鲁棒性的语⾳识别性能，支持中文、英语、法语等11种语言及方言，具有自动分辨语种和过滤背景噪声的能力。⽤户可以任意格式提供⽂本上下⽂，从⽽获得定制化的ASR结果，同时还⽀持歌声识别。

参考：听得清，识得准，语音识别模型Qwen3-ASR-Flash来了！

自变量机器人正式开源具身智能基础大模型「WALL-OSS」

9月8日，自变量机器人宣布正式开源端到端具身智能基础大模型「WALL-OSS-4.2B」，并完成近10亿元A+轮融资，由阿里云、国科投资等领投。该模型在4.2B参数规模下，融合了超大规模的高质量真机数据，能在单张RTX 4090完成从训练到部署全流程；实现了语言、视觉、动作多模态端到端统一输出能力，具备跨场景迁移与执行能力，各项指标超越同类模型π0。

参考：端到端具身智能基础模型WALL-OSS开源！

生数科技全球上线Vidu Q1「参考生图」功能，同时支持7图参考

9月9日，继面向企业推出Q1参考生图商用解决方案后，生数科技正式将其视频大模型Vidu Q1的「参考生图」功能向大众用户开放，提供合成、替换、变换三种生成模式，适配多主体复杂场景。该功能同时支持7张参考图输入，人物、背景、道具随意组合，还原度更高、真实感更强，还能脑洞大开自由创作，支持1080P高清分辨率，效果完胜「Flux Kontext」，直逼「Nano Banana」。

参考：Vidu Q1参考生图全球重磅上线

字节跳动Seed团队发布新一代图像创作模型「Seedream 4.0」

9月9日，字节跳动Seed团队正式发布新一代图像创作模型「Seedream 4.0」（即梦图片4.0模型）。作为该系列迭代以来的一次整合升级，「Seedream 4.0」在一套模型架构中实现文生图与通用编辑能力，融合常识与推理能力，集成文生图、图像编辑、草图控图、风格迁移等多种能力，并支持最高4K超高清分辨率图像生成，现已接入即梦、豆包等平台。

参考：不止会“画”，更会“想”｜Seedream 4.0 图像创作模型正式发布

百度正式发布「文心大模型X1.1」，多个基准测试达到SOTA

9月9日，百度「文心大模型X1.1」正式发布，在事实性、指令遵循、智能体等能力上均提升显著。该模型是基于「文心大模型4.5」训练而来的深度思考模型，主要采用了迭代式混合强化学习训练框架，一方面通过混合强化学习，同时提升通用任务和智能体任务的效果；另一方面通过自蒸馏数据的迭代式生产及训练，不断提升模型整体效果。相比「文心大模型X1」，「X1.1」的事实性提升34.8%，指令遵循提升12.5%，智能体提升9.6%。同时，大会现场还发布了剧本驱动多模协同的数字人技术、飞桨框架v3.2、文心快码3.5S等最新技术及产品。

参考：文心大模型X1.1，正式发布！

腾讯混元发布最新开源生图模型「混元图像2.1」

9月9日，腾讯混元发布最新开源生图模型「混元图像2.1」（HunyuanImage 2.1），支持原生2K生图和最长达1000个tokens的提示词，具备优秀的文本嵌入能力，可实现中英文无缝结合。该模型引入了加速版权重和提示词优化工具，对复杂语义理解能力增强，对图像中的文字和场景细节的把控更为稳定，支持真人、漫画与搪胶手办等多种风格。

参考：混元生图模型升级2.1版本：支持写字、2k分辨率（开源）

阿联酋推出最快推理模型「K2-Think」，用上全球最大芯片

9月10日消息，阿布扎比穆罕默德·本·扎耶德人工智能大学（MBZUAI）联合AI公司G42推出了新低成本推理模型「K2-Think」，参数规模为320亿，基于阿里巴巴的开源模型「Qwen 2.5」构建，性能超过参数规模是其20倍的OpenAI和DeepSeek旗舰推理模型，尤其在复杂数学任务中的表现突出。据介绍，该模型背后有六大技术创新，部署在Cerebras晶圆级芯片WSE系统上，每秒可交付约2000个token，性能提升10倍。

参考：阿联酋开源“最快推理模型”，撞名Kimi，基于阿里Qwen，用上全球最大芯片

华为开源7B模型实现快慢思考切换，精度不变思维链减近50%

9月10日消息，华为开源了盘古模型最新成果「openPangu-Embedded-7B-v1.1」，该模型基于昇腾NPU从零训练的高效大语言模型，参数量为7B，训练了约25T tokens，具备快慢思考融合与自适应切换能力，目前已在GitCode开源。该模型精度相较于此前模型大幅提升，且引入模式自动切换并没有牺牲精度，通过数据质量驱动的学习策略，在保持精度的同时，平均思维链长度缩短近50%。

参考：快慢思考不用二选一！华为开源7B模型实现自由切，精度不变思维链减近50%

AI 工具

腾讯云发布自研AI CLI工具「CodeBuddy Code」，支持全形态AI编程

9月9日，腾讯云发布全新AI CLI工具「CodeBuddy Code」，国内版全系列功能永久免费，支持「DeepSeek」等国产大模型，覆盖开发全流程。该工具通过自然语言驱动编程，可实现代码生成、测试、部署自动化，支持与Git、npm等工具链无缝衔接，开发者无需切换环境即可高效协作。「CodeBuddy Code」作为业内首个同时支持插件、IDE、CLI三种形态的AI 程工具，已让腾讯内部研发提效超16%，编码时间缩短40%，AI生成代码占比超50%。

参考：腾讯发布自研AI CLI，国内首家支持全形态AI编程工具！

首个数据智能体基准测试「FDABench」发布

9月10日消息，南洋理工大学、新加坡国立大学与华为共同开源推出首个专门针对数据智能体（Data Agents）异构混合数据分析的综合性基准测试「FDABench」。该基准涵盖2007个测试任务，横跨50+数据领域、支持多种难度等级和任务类型，还独创了Agent-Expert协作框架，确保测试用例质量和数据一致性，同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。

参考：首个Data Agent基准测试来了！2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

NVIDIA推出新GPU「Rubin CPX」，翻倍提升AI性能

9月9日，NVIDIA宣布推出专为长上下文工作负载设计的专用GPU「Rubin CPX」，用于翻倍提升当前AI推理运算的工作效率，特别是编程、视频生成等需要超长上下文窗口的应用。NVIDIA CEO黄仁勋表示，CPX是首款专为需要一次性处理大量知识（数百万级别tokens），并进行人工智能推理的模型而构建的芯片。据透露，搭载「Rubin CPX」的Rubin机架在处理大上下文窗口时的性能，能比当前旗舰机架GB300 NVL72高出最多6.5倍。

参考：英伟达新GPU突袭！性能拉爆当前旗舰

月之暗面Kimi开源中间件「checkpoint-engine」，20秒更新万亿参数

9月11日，月之暗面Kimi开源轻量级中间件「checkpoint-engine」（检索点引擎），用于在LLM推理引擎中实现高效的就地（in-place）权重更新。借助此组件，「Kimi-K2」只需约20秒就可实现在数千个GPU上更新1万亿参数，显著提升强化学习效率。该技术采用混合共置架构，通过分布式检查点引擎管理参数状态，实现参数广播和重载并行处理。系统设计支持训练和推理引擎完全解耦，采用参数逐条更新的流水线方式，可抵御单点故障提高稳定性。

参考：Kimi开源又放大招！20秒更新万亿参数的中间件来了

微信公众号正式上线「智能回复」功能，AI数字分身实现全天候互动

9月11日，微信公众号正式上线「智能回复」功能，依托AI技术打造“数字分身”，实现对读者私信的自动精准回复。该功能由腾讯混元大模型支持，可自动学习公众号历史文章和回复风格，回复内容会标注“该消息为智能回复”，并可引用相关历史文章，解决运营者无法及时回复读者问题的困扰。此外，腾讯混元也将在官网上线Roleplay模型和AI分身应用，提供沉浸式对话体验，个人创作者可在公众号PC端后台开启。

参考：该消息为“智能回复”

NVIDIA发布了用于3D模型生成的「AI Blueprint」

9月11日，NVIDIA发布了用于3D模型生成的「AI Blueprint」，该工作流让3D艺术家只需输入简单的文本提示，即可创建多达20个3D模型来设计场景原型。此外，全新的Microsoft TRELLIS NVIDIA NIM微服务可在用于3D模型生成的「AI Blueprint」中运行来生成高质量3D资产，速度比原生应用快20%。

参考：眼见为实！借助 NVIDIA AI Blueprint 快速构建 3D 世界

技术突破

Meta超级智能实验室提出「REFRAG」高效解码框架，革新RAG应用

9月8日消息，Meta超级智能实验室联合提出「REFRAG」高效解码框架，通过“压缩-感知-扩展”流程解决LLM长上下文处理效率瓶颈。实验显示，该框架在RAG场景下首字生成延迟（TTFT）加速30.85倍，上下文窗口等效扩大了16倍，且准确率无损失甚至提升（如GSM8K数学题准确率从6.71增至12.08）。这一突破为实时对话、长文档分析等场景提供了高效解决方案。

参考：Meta超级智能实验室首篇论文：重新定义RAG

微软亚洲研究院提出「BRIDGE」框架，突破SFT-RL两阶段训练瓶颈

9月9日，微软亚洲研究院与香港中文大学联合提出了「BRIDGE」合作训练框架，通过双层优化机制（bilevel optimization），让监督微调（SFT）与强化学习（RL）深度协同，突破了长期以来的两阶段训练瓶颈，为大语言模型（LLMs）推理能力的训练开辟了新路径。

参考：BRIDGE：突破SFT-RL两阶段训练瓶颈，开辟推理模型协同优化新路径

腾讯优图实验室开源图检索增强生成框架「Youtu-GraphRAG」

9月11日，腾讯优图实验室正式开源图检索增强生成框架「Youtu-GraphRAG」，结合大语言模型与GraphRAG技术，专为知识密集型场景设计，如企业知识库问答、科研文档解析等。该框架通过四层知识树、社区检测升级和智能迭代检索三大创新，显著提升复杂任务的准确率与效率。在六项基准测试中，构图成本节省30%以上，Token消耗最高减少90.71%，复杂推理准确率提升16.62%，支持中英文双语，部署便捷。

参考：腾讯开源Youtu-GraphRAG：让图检索增强生成更准确、更省钱！

OpenAI宣布ChatGPT正式支持「MCP」（模型上下文协议）

9月11日，OpenAI宣布ChatGPT正式支持「MCP」（Model Context Protocol，模型上下文协议），「MCP」允许调用第三方工具参与自动化流程，一句Prompt即可全自动化。「MCP」实现了AI模型、工具和数据源的标准化交互，使不同模型能共享上下文，支持即插即用。用户可通过开启开发人员模式连接第三方服务(如Stripe)，完成复杂任务，但目前无法与其他ChatGPT功能同时使用。

参考：刚刚，ChatGPT支持MCP了！一句Prompt即可全自动化

行业动态

OpenAI首部AI动画电影《Critterz》定档2026戛纳首映

9月8日，据华尔街日报报道，OpenAI曝光其首部AI动画电影《Critterz》，预计将在2026年5月的戛纳电影节上首映。该片由OpenAI与Vertigo Films、Native Foreign联合制作，讲述的是一群森林小生物在陌生人打扰村庄后踏上冒险的故事。影片自三年前开始筹备，采用DALL-E 2制作概念图，如今将结合「GPT-5」语言模型与「Sora」图像生成工具加速制作，预计用九个月完成全片。

参考：OpenAI 首部 AI 电影曝光！GPT-5 加持明年戛纳首映，下一步冲击奥斯卡？

AI人才争夺白热化，MiniMax与字节跳动甩出百万级期权

9月8日消息，近期，AI领域人才争夺进入白热化阶段。MiniMax传出启动百万美元级期权激励人才计划，覆盖技术、产品、市场等全岗位员工，最高激励达数百万美元，实习生亦有机会获得数十万美元。此前一周，字节跳动为旗下Seed部门核心技术员工推出短周期、快归属的期权增发方案，员工每月可获9万-13万元期权，18个月累计最高超256万元人民币，期权价格同步上调至历史新高。

参考：增发百万美金期权，MiniMax定义人才画像

AI编程独角兽Cognition获超4亿美元融资，成AI编程赛道估值最高企业

9月9日消息，AI编程独角兽Cognition宣布获超4亿美元融资，投后估值达102亿美元，超越估值99亿美元的Anysphere（Cursor背后公司），成为全球AI编程赛道估值最高企业。该公司成立于2023年，由华裔工程师Scott Wu、Steven Hao和Walden Yan共同创立，创始人均为国际信息学奥林匹克金牌得主，融资由Peter Thiel旗下基金领投。

参考：华人缔造商业传奇！全球第一家突破百亿美金的AI编程企业诞生

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

[论文阅读]Benchmarking Poisoning Attacks against Retrieval-Augmented Generation

2048 AI社区

GPT-5攻克「量子NP难题」，首篇论文引爆学界！人类2周压缩至30分钟

GPT-5正改写科学发现的规则！一篇重磅论文揭秘，「量子版NP难题」竟被GPT-5在30分钟之内攻克了，然而这要耗费人类1-2周的时间。照这种速度发展下去，AI离完成「诺奖级」突破真的不远了。意想不到的是，这一次，GPT-5又「攻陷」了量子领域的难题。量子计算专家Scott Aaronson首次发表论文，证明其中一个老难题竟被GPT-5助攻破解了。论文中，Scott一直在死磕量子计算中的一个核心问