MIAOYUN | 每周AI新鲜事儿(11.21-11.28)
当地时间11月24日,特朗普在美国白宫签署「创世纪计划」(Genesis Mission)行政命令,被比作「曼哈顿计划」和「阿波罗计划」,是其第二任期内AI战略的关键举措,核心是借助AI革新科研模式以巩固美国在全球AI及科技领域的领先地位,由美国能源部(DOE)领导,利用国家级超级计算机和联邦数据,构建一个全新的「美国科学与安全平台」,锁定核聚变、芯片、生物技术等六大核心领域攻坚科研难题,要求60
本周全球AI领域动态密集,多家公司发布重磅模型与工具。腾讯、小米、AMD、Anthropic、DeepSeek、阿里、微软等推出多款开源大模型,覆盖视频生成、具身智能、MoE架构等,性能与成本优化显著。AI Agent、工具持续迭代,Elser.AI、Trae SOLO等落地。技术上,嵌套学习、3D资产生成等获突破,市场端特朗普签署AI战略命令,原生AI云厂商打破垄断,推动行业加速发展,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
腾讯混元大模型团队宣布开源最新视频生成模型「HunyuanVideo 1.5」
11月21日,腾讯混元大模型团队宣布开源最新视频生成模型「HunyuanVideo 1.5」,基于Diffusion Transformer(DiT)架构,整合三大核心技术以实现高性能视频生成。通过8.3B参数的轻量化设计与3D因果VAE编解码器,模型实现了空间16倍、时间4倍的高效压缩,以最小参数量激发强大性能,支持生成5-10秒的高清视频。模型已经在「元宝」上线,可通过输入文字描述(Prompt),直接实现“文生视频”;或是上传图片配合Prompt,将静态图片转化为动态视频。
小米正式发布并开源其全新具身智能大模型「MiMo-Embodied」
11月21日,小米正式发布并开源其全新具身智能大模型「MiMo-Embodied」,实现室外自动驾驶任务(如环境感知、决策规划)与室内家居场景的具身智能的统一建模,突破传统“垂直领域专用”的局限,支持跨场景任务协同。通过“跨域能力覆盖、双向协同赋能、全链优化可靠”三大核心技术及多阶段训练策略,「MiMo-Embodied」在真实环境部署中的稳定性显著提升,并在涵盖感知、决策与规划的29项核心基准测试中全面超越现有开源与闭源模型。
参考:小米技术新突破!具身大模型 MiMo-Embodied 正式发布并全面开源
AMD、IBM等联合推出全球首个纯AMD硬件训练大模型「ZAYA1」
11月24日,AMD联合IBM与AI初创公司Zyphra推出全球首个完全基于AMD硬件生态构建的MoE(混合专家)大模型「ZAYA1」,预训练使用14T tokens数据,在综合性能上与通义千问Qwen3系列持平。该模型在IBM Cloud的128节点集群上完成训练,每节点配备8张AMD Instinct MI300X,总计1024张GPU,峰值算力达750PFLOPs。架构层面创新包括CCA注意力机制(显存占用降32%,长上下文吞吐提18%)和线性路由MoE(稀疏度70%下仍保持高效专家利用率)。AMD借此强化其“全栈AI”战略,目标2026年实现训练成本与NVIDIA方案对等。
参考:AMD生态破局之作:全球首个纯AMD硬件训练大模型ZAYA1震撼登场
Anthropic发布最新旗舰模型「Claude Opus 4.5」
11月25日,Anthropic正式发布了最新旗舰模型「Claude Opus 4.5」,在编程、智能体(Agent)及计算机使用方面被宣称为当前全球领先的模型,并实现了性能与价格的双重突破。该模型API调用价格降至每百万Token输入5美元/输出25美元,比上代「Opus 4.1」降低了约三分之二。同时还更新了Claude开发者平台、Claude Code及消费者应用,并增强了对Excel、Chrome等工具的集成支持,智能体模式(Plan Mode)也得到升级。
参考:刚刚,智能体&编程新王Claude Opus 4.5震撼登场,定价大降2/3
腾讯混元推出全新开源模型「HunyuanOCR」,参数仅1B刷新多项SOTA
11月25日,腾讯混元推出全新开源模型「HunyuanOCR」,参数仅为1B,依托于混元原生多模态架构打造,获得多项业界OCR应用榜单SOTA成绩。该模型采用端到端的理念设计,由“原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型”三大部分组建构成,精通多语种复杂文档解析,同时兼具文字检测和识别能力,并支持14种高频小语种翻译。
参考:混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
Black Forest Labs发布开源图像生成模型「FLUX.2」
11月26日,Black Forest Labs发布开源图像生成模型「FLUX.2」,专为现实创意工作流程打造,可在8秒内生成400万像素高清图像,单次生成成本仅为0.003美元,以更低的价格实现类似「Nano Banana Pro」的效果。该模型基于潜空间的流匹配架构构建,并将图像生成与编辑整合在同一个模型中。本次发布包含Pro、Flex、Dev和预告中的Klein四个版本,其中Dev版参数精简40%,支持RTX 3060级别显卡运行,在文本生成图像、单参考编辑、多参考编辑等方面均达领先水平。
参考:爆火全网FLUX.2重磅上线,开源版Nano Banana来了!
阿里通义实验室推出新一代文本生成图像模型「Z-Image」
11月27日,阿里巴巴通义实验室推出新一代文本生成图像模型「Z-Image」,以仅6B参数的Turbo变体以8 NFEs实现亚秒级推理,16G显存即可运行,139秒生成20张高质量图。该模型采用可扩展的单流DiT(S3-DiT)架构,将文本与视觉信息融合处理,参数量减少三分之二的同时推理速度提升,RTX 4090上生成1024×1024图像仅需2.3秒。支持8步采样即达印刷级细节表现,在皮肤纹理、玻璃反光等复杂材质渲染上表现出色。

参考:阿里 Z-Image 封神!Turbo 版 139 秒 20 张图,质量在线 + 硬件友好,谁还选 Flux2
DeepSeek发布「DeepSeek Math-V2」新模型,夺下IMO 2025金牌
11月27日,DeepSeek发布了「DeepSeek Math-V2」新模型,相较于上一代「DeepSeek-Math-7b」及「Gemini DeepThink」等模型性能更优,以83.3%分夺下IMO 2025金牌。该模型核心突破在于从“结果导向”转向“过程导向”,构建了由“阅卷老师”(验证器)、“督导”(元验证机制)和“自省学生”(生成器)组成的系统,通过诚实奖励机制、自动化闭环等创新设计,实现可自我验证的数学推理,既提升了高难度数学证明题的解决能力,又大幅减少了大模型幻觉,为更强数学AI系统的发展提供了可行方向。
微软推出首款为“电脑操作代理”设计的开源语言模型「Fara-7B」
11月27日,微软推出首款专为“电脑操作代理(CUA)”设计的小型开源语言模型「Fara-7B」,只有7B参数却性能出众,能直接在本地设备(如搭载NPU的Copilot+ PC)运行,兼具低延迟与强隐私优势。该模型基于「Qwen2.5-VL-7B」训练,采用纯视觉路线,通过“观察-思考-行动”模式能直接读取网页截图、预测点击坐标并模拟鼠标键盘操作,可完成购买商品、整理Github更新、规划旅程等跨应用任务。
AI Agent
北大哲学博士刘耕创办了一款AI短剧生成Agent「Elser.AI」
11月24日消息,北大哲学博士刘耕创办「Elser.AI」,一款AI短剧生成Agent,在完全没有宣传情况下积累了20万全球活跃用户。「Elser.AI」支持从剧本到分镜到成片的全流程创作,用户可控制角色形象、构图景深、运镜动作等所有细节,实现“创作平权”。海外版将于12月1日上线,全线接入「Nano Banana Pro」,所有在Waitlist登记的用户都将收到首波邀请。
参考:一人干翻一个剧组!北大哲学博士造出AI神器,20万人在排队用
Anthropic发布针对长程Agent的双Agent架构解决方案
11月27日,Anthropic发布Agent工程实践文章,针对长程Agent在多会话间难以保持进度一致的核心难题(如一次性蛮干耗尽上下文、过早宣布完工等),提出双Agent架构解决方案:初始化Agent负责搭建环境,生成包含所有功能需求(初始标记为 “未通过”)的JSON格式功能列表、init.sh脚本、进度文件及初始Git提交;编码Agent则通过增量开发、Git提交与进度记录、端到端测试(借助浏览器自动化工具)推进单个功能,同时每个编码Agent会话开始时会通过查看工作目录、Git日志、进度文件等快速了解项目状态。
参考:Anthropic再发Agent神文:像人类工程师一样思考,解决「长程任务」难题
AI 工具
Google旗下AI工具NotebookLM推出「Slide Decks」幻灯片生成功能
11月22日,Google旗下AI笔记工具NotebookLM推出「Slide Decks」幻灯片生成功能,用户只需导入PDF、网页或视频等原始资料,AI即可自动提炼核心信息并生成结构完整、逻辑清晰的演示文稿。新功能严格遵循源材料,避免事实幻觉,并由新型图像模型「Nano Banana Pro」提供专业配图。同时新增「Infographics」图表生成功能,将复杂数据转化为可视化摘要,全面提升知识工作者的内容产出效率。
阿里巴巴旗下AI助手「千问App」一周破千万,成史上增长最快的AI应用
11月24日,阿里巴巴旗下AI助手「千问App」公测一周,下载量突破1000万次,超越ChatGPT、Sora、DeepSeek成为全球增长最快的AI应用,并带动阿里港股单日涨幅超6%。过去一年,凭借通义千问大模型能力的跃升、开源模型在海外市场受到的认可及其带动的云业务增长等,AI成为驱动阿里股价上涨的第二增长曲线,抢占“AI时代的超级入口”的战略重要性正在不断上升。
AI编程工具「Trae SOLO」中国版正式上线,全部功能完全免费
11月25日,字节跳动正式推出类似Cursor的AI编程工具「Trae SOLO」中国版,并带来SOLO Coder、Plan模式、多任务并行、代码变更工具DiffView、上下文压缩等核心能力,所有功能完全免费。此次「Trae SOLO」中国版的上线打破了海外AI编程工具的使用门槛,通过“技术平权”让更多非专业用户接触并使用编程能力,实现从“工具增强”到“流程简化”的突破。
ChatGPT更新整合「语音模式」和上线「AI购物研究」功能
11月26日,OpenAI宣布ChatGPT完成重大功能迭代,将原独立的「语音模式」(Voice Mode)全面整合至主聊天界面,实现语音与文本交互的深度融合,用户可在语音交互时同步查看地图、图表等视觉内容并获取自动生成的文字转录稿,同时支持一键切换回纯音频模式以适配不同使用习惯。此外还推出了「AI购物研究」功能,上线支持iCloud钥匙串的Atlas AI浏览器新功能,在部分地区开放群聊功能,并通过性能更强的GPT-5.1模型进一步提升了对话智能度与流畅性。
技术突破
南洋理工开源「PhysX-Anything」框架,实现单张图像生成仿真的3D资产
11月24日,南洋理工大学开源「PhysX-Anything」框架,首个面向仿真、具备物理属性的3D生成框架:仅需单张图像,即可生成高质量、可直接用于仿真的3D资产,并同时具备显式几何结构、关节运动以及物理参数,可直接用于MuJoCo等机器人仿真环境。该框架通过VLM驱动的物理建模和高效输出格式,为机器人仿真和具身智能提供了高质量资产来源。

参考:南洋理工开源PhysX-Anything:从单张图像生成可直接仿真的物理3D资产!
Google Research发布论文提出「嵌套学习」新机器学习范式
11月25日,近期Google Research发布的论文提出了「嵌套学习」(Nested Learning)新机器学习范式,将模型拆分为一组具有各自内部工作流程的嵌套优化问题,每个子问题拥有独立工作流程,可减轻甚至避免“灾难性遗忘”。该方法通过关联记忆、更新频率分层和优化器即记忆模块三大创新,实现“早期层高频刷,后期层低频整合”的新训练框架;基于此推出的HOPE模型在语言建模困惑度和常识推理准确率上均表现最优,在长上下文大海捞针任务中展现出卓越的内存管理能力。
参考:Google又发布了一篇可能改变AI未来的论文,这次它教AI拥有了记忆。
市场动态
美国白宫特朗普正式签署「创世纪计划」行政命令
当地时间11月24日,特朗普在美国白宫签署「创世纪计划」(Genesis Mission)行政命令,被比作「曼哈顿计划」和「阿波罗计划」,是其第二任期内AI战略的关键举措,核心是借助AI革新科研模式以巩固美国在全球AI及科技领域的领先地位,由美国能源部(DOE)领导,利用国家级超级计算机和联邦数据,构建一个全新的「美国科学与安全平台」,锁定核聚变、芯片、生物技术等六大核心领域攻坚科研难题,要求60天内提出20项国家挑战,并勒令9个月内构建AI科研闭环。目前,NVIDIA、Dell、AMD等科技巨头均响应参与。
超6000亿美元市场,「原生AI云厂商」打破巨头垄断格局
11月27日消息,IDC、沙利文等全球知名市研机构的云计算报告中都提到了一个新概念「原生AI云厂商」,在超 6000 亿美元的全球云计算市场,「原生AI云厂商」崛起打破了传统云巨头的垄断格局。报告显示,海外CoreWeave成头部玩家,国内商汤科技表现亮眼,2025年H1位列中国原生AI云厂商首位,2024年GenAI技术栈市场增长与创新指数国内第一、全球仅次于亚马逊云科技。与传统云巨头相比,「原生AI云厂商」在AI技术绑定、场景适配性等方面更具优势,但基础设施覆盖等存在短板。
更多推荐



所有评论(0)