MIAOYUN | 每周 AI 新鲜事儿(09.05-09.12)
9月8日,阿里通义千问团队正式推出新一代语音识别模型「Qwen3-ASR-Flash」,基于Qwen3基座模型训练,经海量多模态数据以及千万⼩时规模的ASR(自动语音识别)数据训练构建而成,实现了⾼精度⾼鲁棒性的语⾳识别性能,支持中文、英语、法语等11种语言及方言,具有自动分辨语种和过滤背景噪声的能力。该功能同时支持7张参考图输入,人物、背景、道具随意组合,还原度更高、真实感更强,还能脑洞大开自由
本周AI领域迎来密集更新,Kimi、Qwen、微软、百度、字节、腾讯、生数、华为等多厂商模型竞相升级,图像、语音、编程等多模态能力持续突破;技术方面,Meta提出高效解码框架REFRAG,微软突破SFT-RL训练瓶颈,ChatGPT正式支持MCP等获重要进展;同时OpenAI首部AI电影定档2026,Cognition融资4亿美元登顶编程赛道,巨头百万期权抢人,AI进入“军备竞赛”白热化,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
月之暗面推出「Kimi K2」模型的最新版本「0905」
9月5日,月之暗面发布「Kimi K2」模型的最新版本「0905」,该模型的核心升级点为Agentic Coding能力提升、上下文长度从128K拓展到256K、API支持高达60-100Token/s的输出速度、支持Claude Code。目前,Kimi应用和网页版中的K2模型已全量升级到「0905」最新版。
参考:Kimi K2 模型更新,带来更强的代码能力、更快的 API
通义千问上线超万亿参数的最大模型「Qwen3-Max-Preview」
9月6日,通义千问团队上线迄今为止最大的模型「Qwen3-Max-Preview」(Instruct),参数超1万亿。该模型在内测中表现出更强的智能水平,更广的知识面,更优秀的对话能力,在Agent任务与指令遵循等方面拥有更强劲的性能。这证明规模化扩展(Scaling)仍然有效,更大的模型拥有更强的性能。
参考:上新!超万亿参数的Qwen3-Max-Preview来了
微软开源「rStar2-Agent」 AI Agent模型,仅14B参数超越「DeepSeek-R1」
9月8日消息,微软研究院近日开源了一款名为「rStar2-Agent」的 AI Agent 推理模型,该模型采用了智能体强化学习方法,仅有14B参数,但在AIME24数学推理测试中达到了80.6%的准确率,超越了671B参数的「DeepSeek-R1」(79.8%),二者的参数体量相差了将近48倍。
参考:微软开源3大突破AI Agent模型,仅140亿参数超越DeepSeek-R1
阿里通义千问推出新一代语音识别模型「Qwen3-ASR-Flash」
9月8日,阿里通义千问团队正式推出新一代语音识别模型「Qwen3-ASR-Flash」,基于Qwen3基座模型训练,经海量多模态数据以及千万⼩时规模的ASR(自动语音识别)数据训练构建而成,实现了⾼精度⾼鲁棒性的语⾳识别性能,支持中文、英语、法语等11种语言及方言,具有自动分辨语种和过滤背景噪声的能力。⽤户可以任意格式提供⽂本上下⽂,从⽽获得定制化的ASR结果,同时还⽀持歌声识别。
参考:听得清,识得准,语音识别模型Qwen3-ASR-Flash来了!
自变量机器人正式开源具身智能基础大模型「WALL-OSS」
9月8日,自变量机器人宣布正式开源端到端具身智能基础大模型「WALL-OSS-4.2B」,并完成近10亿元A+轮融资,由阿里云、国科投资等领投。该模型在4.2B参数规模下,融合了超大规模的高质量真机数据,能在单张RTX 4090完成从训练到部署全流程;实现了语言、视觉、动作多模态端到端统一输出能力,具备跨场景迁移与执行能力,各项指标超越同类模型π0。
生数科技全球上线Vidu Q1「参考生图」功能,同时支持7图参考
9月9日,继面向企业推出Q1参考生图商用解决方案后,生数科技正式将其视频大模型Vidu Q1的「参考生图」功能向大众用户开放,提供合成、替换、变换三种生成模式,适配多主体复杂场景。该功能同时支持7张参考图输入,人物、背景、道具随意组合,还原度更高、真实感更强,还能脑洞大开自由创作,支持1080P高清分辨率,效果完胜「Flux Kontext」,直逼「Nano Banana」。
字节跳动Seed团队发布新一代图像创作模型「Seedream 4.0」
9月9日,字节跳动Seed团队正式发布新一代图像创作模型「Seedream 4.0」(即梦图片4.0模型)。作为该系列迭代以来的一次整合升级,「Seedream 4.0」在一套模型架构中实现文生图与通用编辑能力,融合常识与推理能力,集成文生图、图像编辑、草图控图、风格迁移等多种能力,并支持最高4K超高清分辨率图像生成,现已接入即梦、豆包等平台。
参考:不止会“画”,更会“想”|Seedream 4.0 图像创作模型正式发布
百度正式发布「文心大模型X1.1」,多个基准测试达到SOTA
9月9日,百度「文心大模型X1.1」正式发布,在事实性、指令遵循、智能体等能力上均提升显著。该模型是基于「文心大模型4.5」训练而来的深度思考模型,主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。相比「文心大模型X1」,「X1.1」的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。同时,大会现场还发布了剧本驱动多模协同的数字人技术、飞桨框架v3.2、文心快码3.5S等最新技术及产品。
腾讯混元发布最新开源生图模型「混元图像2.1」
9月9日,腾讯混元发布最新开源生图模型「混元图像2.1」(HunyuanImage 2.1),支持原生2K生图和最长达1000个tokens的提示词,具备优秀的文本嵌入能力,可实现中英文无缝结合。该模型引入了加速版权重和提示词优化工具,对复杂语义理解能力增强,对图像中的文字和场景细节的把控更为稳定,支持真人、漫画与搪胶手办等多种风格。
参考:混元生图模型升级2.1版本:支持写字、2k分辨率(开源)
阿联酋推出最快推理模型「K2-Think」,用上全球最大芯片
9月10日消息,阿布扎比穆罕默德·本·扎耶德人工智能大学(MBZUAI)联合AI公司G42推出了新低成本推理模型「K2-Think」,参数规模为320亿,基于阿里巴巴的开源模型「Qwen 2.5」构建,性能超过参数规模是其20倍的OpenAI和DeepSeek旗舰推理模型,尤其在复杂数学任务中的表现突出。据介绍,该模型背后有六大技术创新,部署在Cerebras晶圆级芯片WSE系统上,每秒可交付约2000个token,性能提升10倍。
参考:阿联酋开源“最快推理模型”,撞名Kimi,基于阿里Qwen,用上全球最大芯片
华为开源7B模型实现快慢思考切换,精度不变思维链减近50%
9月10日消息,华为开源了盘古模型最新成果「openPangu-Embedded-7B-v1.1」,该模型基于昇腾NPU从零训练的高效大语言模型,参数量为7B,训练了约25T tokens,具备快慢思考融合与自适应切换能力,目前已在GitCode开源。该模型精度相较于此前模型大幅提升,且引入模式自动切换并没有牺牲精度,通过数据质量驱动的学习策略,在保持精度的同时,平均思维链长度缩短近50%。
参考:快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%
AI 工具
腾讯云发布自研AI CLI工具「CodeBuddy Code」,支持全形态AI编程
9月9日,腾讯云发布全新AI CLI工具「CodeBuddy Code」,国内版全系列功能永久免费,支持「DeepSeek」等国产大模型,覆盖开发全流程。该工具通过自然语言驱动编程,可实现代码生成、测试、部署自动化,支持与Git、npm等工具链无缝衔接,开发者无需切换环境即可高效协作。「CodeBuddy Code」作为业内首个同时支持插件、IDE、CLI三种形态的AI 程工具,已让腾讯内部研发提效超16%,编码时间缩短40%,AI生成代码占比超50%。
参考:腾讯发布自研AI CLI,国内首家支持全形态AI编程工具!
首个数据智能体基准测试「FDABench」发布
9月10日消息,南洋理工大学、新加坡国立大学与华为共同开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试「FDABench」。该基准涵盖2007个测试任务,横跨50+数据领域、支持多种难度等级和任务类型,还独创了Agent-Expert协作框架,确保测试用例质量和数据一致性,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。
参考:首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
NVIDIA推出新GPU「Rubin CPX」,翻倍提升AI性能
9月9日,NVIDIA宣布推出专为长上下文工作负载设计的专用GPU「Rubin CPX」,用于翻倍提升当前AI推理运算的工作效率,特别是编程、视频生成等需要超长上下文窗口的应用。NVIDIA CEO黄仁勋表示,CPX是首款专为需要一次性处理大量知识(数百万级别tokens),并进行人工智能推理的模型而构建的芯片。据透露,搭载「Rubin CPX」的Rubin机架在处理大上下文窗口时的性能,能比当前旗舰机架GB300 NVL72高出最多6.5倍。
月之暗面Kimi开源中间件「checkpoint-engine」,20秒更新万亿参数
9月11日,月之暗面Kimi开源轻量级中间件「checkpoint-engine」(检索点引擎),用于在LLM推理引擎中实现高效的就地(in-place)权重更新。借助此组件,「Kimi-K2」只需约20秒就可实现在数千个GPU上更新1万亿参数,显著提升强化学习效率。该技术采用混合共置架构,通过分布式检查点引擎管理参数状态,实现参数广播和重载并行处理。系统设计支持训练和推理引擎完全解耦,采用参数逐条更新的流水线方式,可抵御单点故障提高稳定性。
微信公众号正式上线「智能回复」功能,AI数字分身实现全天候互动
9月11日,微信公众号正式上线「智能回复」功能,依托AI技术打造“数字分身”,实现对读者私信的自动精准回复。该功能由腾讯混元大模型支持,可自动学习公众号历史文章和回复风格,回复内容会标注“该消息为智能回复”,并可引用相关历史文章,解决运营者无法及时回复读者问题的困扰。此外,腾讯混元也将在官网上线Roleplay模型和AI分身应用,提供沉浸式对话体验,个人创作者可在公众号PC端后台开启。
参考:该消息为“智能回复”
NVIDIA发布了用于3D模型生成的「AI Blueprint」
9月11日,NVIDIA发布了用于3D模型生成的「AI Blueprint」,该工作流让3D艺术家只需输入简单的文本提示,即可创建多达20个3D模型来设计场景原型。此外,全新的Microsoft TRELLIS NVIDIA NIM微服务可在用于3D模型生成的「AI Blueprint」中运行来生成高质量3D资产,速度比原生应用快20%。
参考:眼见为实!借助 NVIDIA AI Blueprint 快速构建 3D 世界
技术突破
Meta超级智能实验室提出「REFRAG」高效解码框架,革新RAG应用
9月8日消息,Meta超级智能实验室联合提出「REFRAG」高效解码框架,通过“压缩-感知-扩展”流程解决LLM长上下文处理效率瓶颈。实验显示,该框架在RAG场景下首字生成延迟(TTFT)加速30.85倍,上下文窗口等效扩大了16倍,且准确率无损失甚至提升(如GSM8K数学题准确率从6.71增至12.08)。这一突破为实时对话、长文档分析等场景提供了高效解决方案。
微软亚洲研究院提出「BRIDGE」框架,突破SFT-RL两阶段训练瓶颈
9月9日,微软亚洲研究院与香港中文大学联合提出了「BRIDGE」合作训练框架,通过双层优化机制(bilevel optimization),让监督微调(SFT)与强化学习(RL)深度协同,突破了长期以来的两阶段训练瓶颈,为大语言模型(LLMs)推理能力的训练开辟了新路径。
参考:BRIDGE:突破SFT-RL两阶段训练瓶颈,开辟推理模型协同优化新路径
腾讯优图实验室开源图检索增强生成框架「Youtu-GraphRAG」
9月11日,腾讯优图实验室正式开源图检索增强生成框架「Youtu-GraphRAG」,结合大语言模型与GraphRAG技术,专为知识密集型场景设计,如企业知识库问答、科研文档解析等。该框架通过四层知识树、社区检测升级和智能迭代检索三大创新,显著提升复杂任务的准确率与效率。在六项基准测试中,构图成本节省30%以上,Token消耗最高减少90.71%,复杂推理准确率提升16.62%,支持中英文双语,部署便捷。
参考:腾讯开源Youtu-GraphRAG:让图检索增强生成更准确、更省钱!
OpenAI宣布ChatGPT正式支持「MCP」(模型上下文协议)
9月11日,OpenAI宣布ChatGPT正式支持「MCP」(Model Context Protocol,模型上下文协议),「MCP」允许调用第三方工具参与自动化流程,一句Prompt即可全自动化。「MCP」实现了AI模型、工具和数据源的标准化交互,使不同模型能共享上下文,支持即插即用。用户可通过开启开发人员模式连接第三方服务(如Stripe),完成复杂任务,但目前无法与其他ChatGPT功能同时使用。
参考:刚刚,ChatGPT支持MCP了!一句Prompt即可全自动化
行业动态
OpenAI首部AI动画电影《Critterz》定档2026戛纳首映
9月8日,据华尔街日报报道,OpenAI曝光其首部AI动画电影《Critterz》,预计将在2026年5月的戛纳电影节上首映。该片由OpenAI与Vertigo Films、Native Foreign联合制作,讲述的是一群森林小生物在陌生人打扰村庄后踏上冒险的故事。影片自三年前开始筹备,采用DALL-E 2制作概念图,如今将结合「GPT-5」语言模型与「Sora」图像生成工具加速制作,预计用九个月完成全片。
参考:OpenAI 首部 AI 电影曝光!GPT-5 加持明年戛纳首映,下一步冲击奥斯卡?
AI人才争夺白热化,MiniMax与字节跳动甩出百万级期权
9月8日消息,近期,AI领域人才争夺进入白热化阶段。MiniMax传出启动百万美元级期权激励人才计划,覆盖技术、产品、市场等全岗位员工,最高激励达数百万美元,实习生亦有机会获得数十万美元。此前一周,字节跳动为旗下Seed部门核心技术员工推出短周期、快归属的期权增发方案,员工每月可获9万-13万元期权,18个月累计最高超256万元人民币,期权价格同步上调至历史新高。
AI编程独角兽Cognition获超4亿美元融资,成AI编程赛道估值最高企业
9月9日消息,AI编程独角兽Cognition宣布获超4亿美元融资,投后估值达102亿美元,超越估值99亿美元的Anysphere(Cursor背后公司),成为全球AI编程赛道估值最高企业。该公司成立于2023年,由华裔工程师Scott Wu、Steven Hao和Walden Yan共同创立,创始人均为国际信息学奥林匹克金牌得主,融资由Peter Thiel旗下基金领投。
更多推荐
所有评论(0)