本周全球AI领域进展密集,MiniMax音乐模型、阿里80B Qwen3-Next、Meta小参数MobileLLM-R1、OpenAI 编程专用GPT-5-Codex、OpenBMB小钢炮新成员、李飞飞3D世界Marble齐上线;Cursor、小红书、腾讯、xAI等新模型性能飙升。技术方面多模态与视频生成显著突破,上海AI Lab、腾讯优图等推出高效采样与蒸馏方案。华为公布芯片路线图与2035智能世界趋势,DeepSeek-R1登上Nature,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

MiniMax发布新一代音乐生成模型「Music 1.5」

9月12日,MiniMax发布新一代音乐生成模型「Music 1.5」,支持长达4分钟的完整歌曲创作,并具备强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰四大突破。模型支持“16种风格×11种情绪×10个场景”自定义音乐特征,能生成不同声线唱腔,并支持中国民族乐器生成支持歌词编排、声线定制、民乐生成等能力。

参考:音乐模型新突破:MiniMax Music 1.5上线,4分钟时长、回归“好听”本质

阿里通义千问发布「Qwen3-Next」架构并开源「Qwen3-Next-80B-A3B」双模型

9月12日,阿里通义千问发布下一代基础模型架构「Qwen3-Next」,对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新。并训练了基于该架构的「Qwen3-Next-80B-A3B-Base」模型,该模型拥有80B参数仅激活3B参数,算力利用率大约是3.7%,训练成本较「Qwen3-32B」降90%,推理效率却提升10倍,尤其是在超长文本32K以上的提示场景中。同时,基于Base模型,阿里开源了「Qwen3-Next-80B-A3B」的指令模型(Instruct)和思维模型(Thinking)。

参考:我们正式发布:Qwen3-Next-80B-A3B 双模型!

Meta AI发布「MobileLLM-R1」系列小参数高效模型

9月12日, Meta AI发布「MobileLLM-R1」系列小参数高效模型,包括140M、360M、950M三种规模,在数学、编程和科学推理任务中表现卓越。最大版本的950M模型仅使用约2T高质量token进行预训练(总训练量不足5T),性能却与使用36T token训练的「Qwen3 0.6B」相当或更佳;在MATH基准上比「Olmo 1.24B」高五倍,比「SmolLM2 1.7B」高两倍,在完全开源模型中创下新的最高水平。

参考:Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

Cursor升级「Tab」模型,代码建议接受率提升28%

9月14日,Cursor采用在线强化学习技术训练出一个全新的「Tab」模型。该模型将每一次用户交互(接受/拒绝建议)都视为一个强化信号,直接用于模型的在线优化。目前,Cursor已将这个新的「Tab」模型设为默认版本;与旧模型相比,新模型提供的建议数量减少了21%,但所提供建议的接受率却提升了28%。

参考:为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

小红书推出新一代对话合成模型「FireRedTTS-2」

9月14日消息,近日小红书智创音频技术团队发布新一代对话合成模型「FireRedTTS-2」,支持音色克隆,显著提升合成自然度与多说话人对话能力。该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题,通过升级离散语音编码器与文本语音合成模型全面优化合成效果,仅需一句语音样本即可模仿说话人音色与语调,轻松做出AI播客。  

参考:小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!

马斯克旗下xAI推出「Grok 4 Fast」模型,响应速度提升10倍 

9月15日,马斯克旗下xAI公司推出「Grok 4 Fast」模型,生成速度高达每秒75个token,比标准版快10倍。该模型专注于及时响应场景,强调速度优先,适用于简单查询和工具调用,但在复杂创意任务上有所妥协,牺牲部分准确性和细节丰富度,但满足了特定用户追求及时结果的需求。

参考:马斯克的最快AI模型来了

腾讯发布「混元3D 3.0」模型,建模精度提升3倍

9月16日,在2025腾讯全球数字生态大会上,腾讯重磅发布「混元3D 3.0」模型,采用3D-DiT分级雕刻技术,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,细节表现力显著增强。同时推出「混元3D Studio」平台和计划开源「混元3D omni」模型,推动3D创作的边界拓展。

参考:真人手办建模自由!腾讯混元3D 3.0来了

OpenAI重磅推出「GPT-5-Codex」,专为智能体编程设计

9月16日,OpenAI重磅推出「GPT-5-Codex」,专为智能体编程(Agentic Coding)设计,显著提升代码重构、审查和缺陷发现的表现。该模型具备动态思考机制,能根据任务复杂度调整处理时间,提升编码效率;支持多平台集成,包括IDE扩展、Web界面和GitHub代码审查功能,增强开发者生态。

参考:收手吧GPT-5-Codex,外面全是AI编程智能体!

李飞飞创业公司World Labs发布空间智能模型「Marble」

9月17日,斯坦福大学教授李飞飞的创业公司World Labs发布了空间智能模型「Marble」,用户只需输入一张图片或文本提示,即可生成持久存在、可导航、可控的大规模3D世界。与此前成果相比,现在生成的 3D 世界规模更大、风格更多样化、几何结构更干净,且支持浏览器中自由视角导航。目前「Marble」是一个限量访问的 Beta 测试版平台,用户可以在官网地址( marble.worldlabs.ai)浏览和创建 3D 世界。

参考:刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代

OpenBMB联合清华大学开源小钢炮新成员「VoxCPM」

9月18日,OpenBMB与清华大学联合开源小钢炮新成员「VoxCPM」,一款模型参数尺寸仅有0.5B的语音生成基座模型,在合成语音的自然度、音色相似度及韵律表现力方面均达到SOTA水平。该模型采用融合层次化语言建模和局部扩散生成的连续表征端到端TTS方案,显著提升了语音生成的表现力、自然度、稳定性。「VoxCPM」的特点包括超自然语音生成、零样本语音克隆和语境感知,能够根据文本内容自动调整说话风格。

参考:面壁小钢炮迎新:VoxCPM 语音生成媲美真人、声音复刻超像!

技术突破

字节跳动与清华大学联合开源「HuMo」多模态框架

9月13日消息,近期字节跳动智能创作团队与清华大学携手推出开源多模态框架「HuMo」,该框架聚焦人体视频生成(HCVG),可结合文本、图像、音频多模态输入,凭借高质量数据集与渐进式训练方法,能生成480P、720P清晰度、最长97帧、25帧每秒的可控人物视频,且在子任务表现上超越现有专业化方法,其创新的数据处理流程、灵活推理策略及渐进式多模态训练方式提升了视频质量与处理速度。

参考:HuMo:灵活细粒度控制的人类视频生成框架

加州大学、伯克利等联合推出轻量高效的多模态视觉编码器「OpenVision 2」

9月15日消息,近期加州大学圣克鲁兹分校、Apple和伯克利的研究团队提出了「OpenVision 2」,一款针对多模态学习优化的视觉编码器。核心创新在于通过极简生成式框架(仅图像编码器+文本解码器)替代传统CLIP式对比学习,移除文本编码器并引入视觉token随机掩码技术,显著提升训练效率(时间缩短1.5-2倍,显存减半),同时保持多模态任务性能。实验显示,其在OCR等任务上优于主流对比模型,并成功扩展到10亿参数规模,为视觉预训练提供了高效可扩展的新方向。

参考:OpenVision 2:大道至简的生成式预训练视觉编码器

上海AI Lab联合推出新一代多模态生成理解统一扩散大模型「Lumina-DiMOO」

9月16日消息,上海人工智能实验室联合昇腾、知名高校共同推出面向新一代多模态生成理解统一扩散大模型「Lumina-DiMOO」,支持文本生成图像、图像编辑、图像翻译、图像复原等多种任务。该模型基于昇腾MindSpeed MM多模态大模型套件训练,采用“全离散扩散架构”,一个模型即可搞定文字与图像的输入输出,架构更简洁,任务迁移更高效;结合“Max-Logit缓存加速机制”,采样速度相比传统自回归架构提升约10倍,平衡性能与效率,以8B参数规模在DPG等权威基准测试中超越现有开源多模态模型。

参考:国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式

腾讯优图实验室联合提出视频蒸馏加速框架「SwiftVideo」

9月18日,腾讯优图实验室、复旦大学、上海创智学院联合提出视频蒸馏加速框架「SwiftVideo」,该框架是一个结合了轨迹保持和分布匹配策略的优势的统一蒸馏框架,通过轨迹与分布对齐,实现少步数高质量视频生成。该框架包括三个核心组件:连续时间一致性蒸馏(CCD),分布对齐(DA)和轨迹对齐(TA)。

参考:首个!腾讯优图、复旦、上海创智学院提出SwiftVideo:Continuous-time视频蒸馏加速框架!

AI Agent

昆仑万维旗下AI音乐创作平台Mureka上线全新功能「Agent Studio」

9月15日,昆仑万维旗下AI音乐创作平台Mureka上线了全新功能「Agent Studio」,用更直观、更轻松的方式,把音乐创作真正带到每一个普通人身边。用户只需简单描述想法,就能自动生成歌词和音乐;该功能包含多个创作场景,如专辑制作、热点写歌等,为用户提供多样化的音乐体验。

参考:Mureka上线「Agent Studio」新功能,让每个人都拥有私人音乐工作室!

阿里全面开源深度研究Agent模型「通义DeepResearch」

9月17日,阿里云通义实验室开源「通义DeepResearch」,是首个完全开源的Web Agent,仅使用30B参数(实际激活3B)即可实现与OpenAI的深度研究工具相媲美的性能,在多项权威基准上取得SOTA,并在Humanity's Last Exam测试中获得32.9分的高分。其强大的信息检索和推理能力,适用于多日行程规划和法律文档分析等复杂任务。

参考:不止SOTA!通义 DeepResearch模型、框架、方案全开源

腾讯云宣布智能体开发平台3.0「ADP 3.0」面向全球上线

9月17日,腾讯云宣布智能体开发平台3.0「ADP 3.0」面向全球上线,腾讯优图实验室关键智能体技术将持续开源。「ADP 3.0」从四方面全面升级:RAG层面,支持更完善的知识库管理与运维能力;Multi-Agent方面,支持多方式配置Agent协同,支持自由转交、工作流编排、P&E协同模版等;WorkFlow方面,率先支持全局Agent视野,支持节点智能回退;平台新增应用变量与长期记忆,提升个性化交互;应用构建工具链方面,引入自动化评测引擎,支持裁判模型、代码与规则打分,并支持在大规模知识场景中多层级权限配置。

参考:腾讯云面向全球发布智能体开发平台 3.0

天工超级智能体正式上线全新Vibe Coding Agent「AI Developer」

9月17日,天工超级智能体(Skywork Super Agents)在海外版产品中正式上线全新Vibe Coding Agent「AI Developer」,帮助非专业开发人员通过自然语言交互快速构建、部署和管理全栈Web应用程序。「AI Developer」不仅能生成前端页面,还可与Supabase深度集成,实现登录注册、数据库存储评论数据、实时更新等后端能力;此外还提供Stripe支付和Resend邮箱服务集成。

参考:Skywork Super Agents正式上线Vibe Coding Agent「AI Developer」

AI 产品

夸克推出国内首个「全阶段医师考试大模型测试集」

9月16日,夸克正式发布国内首个覆盖全阶段医师考试的健康大模型测试集「全阶段医师考试大模型测试集」,弥补了国内在时效性高、覆盖面全的医师考试测试集上的空白。该测试集涵盖12门核心医学学科,包含约7600道题,内容基于2024年最新真题的专业题目,通过梯度化策略,模型推理能力的要求显著提升,适用于不同级别的考试。

参考:刷完7600道题后,健康大模型“悟了”

腾讯AI工作台ima功能更新,支持上传音频文件

9月17日,腾讯旗下以知识库为核心的AI工作台ima发布新版本,本次更新主要升级了三方面:音频一键上传,支持MP3、M4A、WAV、AAC格式音频文件,AI自动生成原文、速览和纪要,方便处理培训录音等内容;增加电脑端快捷键截图功能,用户可设置截图后直接提问、加入知识库或记笔记,简化信息获取流程;手机端笔记支持离线编辑与新建,无网络状态下也能记录灵感,联网后自动同步。

参考:我们又更新了:ima支持上传音频文件

华为发布昇腾AI芯片4年5款产品路线图及全球最强算力超节点

9月18日,在华为全联接大会2025上,华为公布昇腾AI芯片4年5款产品路线图,包括2026年Q1推出的昇腾950PR、2026年Q4的昇腾950DT、2027年Q4的昇腾960和2028年Q4的昇腾970。昇腾950芯片支持低精度数据格式,在FP8、MXFP8、HiF8精度下AI算力达1PFLOPS,MXFP4下达2PFLOPS,支持华为自研HBM。同时推出全球最强算力超节点和集群,华为Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点,分别支持8192张及15488张昇腾卡。

参考:华为发布全球最强算力超节点和集群

行业动态

迪士尼联合起诉MiniMax,AI版权争议升级

9月16日,迪士尼、华纳兄弟和环球影业联合向洛杉矶联邦法院起诉中国AI公司MiniMax,指控其通过「海螺AI」服务大规模侵犯著作权。诉讼涉及未经授权使用蜘蛛侠、蝙蝠侠等电影角色进行AI训练和商业化运营,三家公司要求MiniMax返还所有侵权所得,并按每项著作权最高15万美元的标准请求赔偿。此前爱奇艺也曾起诉其产品生成与《苍兰诀》角色高度相似的虚拟形象,并允许用户互动,涉嫌侵权。

参考:迪士尼等三大影视巨头联合起诉海螺AI

华为发布面向智能世界2035十大技术趋势

9月16日,华为发布面向智能世界2035系列报告,包括包括《智能世界2035》和《全球数智化指数2025》报告两大研究成果,展望了未来十年的关键技术趋势以及这些技术对行业带来的改变和影响。报告预测AGI将成最具变革性驱动力量、AI智能体从执行工具演进为决策伙伴、人机协同编程成为主流、交互方式向多模态演进等十大趋势;并预测2035年全社会算力总量将增长10万倍、AI存储容量需求将比2025年增长500倍,可再生能源发电量占比将突破50%,人工智能将成为新能源系统的核心。

参考:华为发布面向智能世界2035十大技术趋势

「DeepSeek-R1」以封面文章的形式登上了权威科学期刊《Nature》

9月17日,中国AI公司深度求索的「DeepSeek-R1」推理模型研究论文登上了国际权威期刊《Nature》的封面,成为全球首个经过同行评审的主流大语言模型(LLM)。该论文首次展示了通过强化学习(RL)显著提升大模型推理能力的研究成果,并在Hugging Face平台上下载量超过1090万次。「DeepSeek-R1」的安全性也经过全面评估,表现优于其他前沿模型。

参考:刚刚,DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐