MIAOYUN | 每周AI新鲜事儿（11.21-11.28）

当地时间11月24日，特朗普在美国白宫签署「创世纪计划」（Genesis Mission）行政命令，被比作「曼哈顿计划」和「阿波罗计划」，是其第二任期内AI战略的关键举措，核心是借助AI革新科研模式以巩固美国在全球AI及科技领域的领先地位，由美国能源部（DOE）领导，利用国家级超级计算机和联邦数据，构建一个全新的「美国科学与安全平台」，锁定核聚变、芯片、生物技术等六大核心领域攻坚科研难题，要求60

秒云

1000人浏览 · 2025-12-01 09:47:51

秒云 · 2025-12-01 09:47:51 发布

本周全球AI领域动态密集，多家公司发布重磅模型与工具。腾讯、小米、AMD、Anthropic、DeepSeek、阿里、微软等推出多款开源大模型，覆盖视频生成、具身智能、MoE架构等，性能与成本优化显著。AI Agent、工具持续迭代，Elser.AI、Trae SOLO等落地。技术上，嵌套学习、3D资产生成等获突破，市场端特朗普签署AI战略命令，原生AI云厂商打破垄断，推动行业加速发展，一起来回顾本周发生的AI新鲜事儿吧！

AI 大模型

腾讯混元大模型团队宣布开源最新视频生成模型「HunyuanVideo 1.5」

11月21日，腾讯混元大模型团队宣布开源最新视频生成模型「HunyuanVideo 1.5」，基于Diffusion Transformer（DiT）架构，整合三大核心技术以实现高性能视频生成。通过8.3B参数的轻量化设计与3D因果VAE编解码器，模型实现了空间16倍、时间4倍的高效压缩，以最小参数量激发强大性能，支持生成5-10秒的高清视频。模型已经在「元宝」上线，可通过输入文字描述（Prompt），直接实现“文生视频”；或是上传图片配合Prompt，将静态图片转化为动态视频。

参考：腾讯混元发布全新视频生成模型，「元宝」率先上线尝鲜

小米正式发布并开源其全新具身智能大模型「MiMo-Embodied」

11月21日，小米正式发布并开源其全新具身智能大模型「MiMo-Embodied」，实现室外自动驾驶任务（如环境感知、决策规划）与室内家居场景的具身智能的统一建模，突破传统“垂直领域专用”的局限，支持跨场景任务协同。通过“跨域能力覆盖、双向协同赋能、全链优化可靠”三大核心技术及多阶段训练策略，「MiMo-Embodied」在真实环境部署中的稳定性显著提升，并在涵盖感知、决策与规划的29项核心基准测试中全面超越现有开源与闭源模型。

参考：小米技术新突破！具身大模型 MiMo-Embodied 正式发布并全面开源

AMD、IBM等联合推出全球首个纯AMD硬件训练大模型「ZAYA1」

11月24日，AMD联合IBM与AI初创公司Zyphra推出全球首个完全基于AMD硬件生态构建的MoE（混合专家）大模型「ZAYA1」，预训练使用14T tokens数据，在综合性能上与通义千问Qwen3系列持平。该模型在IBM Cloud的128节点集群上完成训练，每节点配备8张AMD Instinct MI300X，总计1024张GPU，峰值算力达750PFLOPs。架构层面创新包括CCA注意力机制（显存占用降32%，长上下文吞吐提18%）和线性路由MoE（稀疏度70%下仍保持高效专家利用率）。AMD借此强化其“全栈AI”战略，目标2026年实现训练成本与NVIDIA方案对等。

参考：AMD生态破局之作：全球首个纯AMD硬件训练大模型ZAYA1震撼登场

Anthropic发布最新旗舰模型「Claude Opus 4.5」

11月25日，Anthropic正式发布了最新旗舰模型「Claude Opus 4.5」，在编程、智能体（Agent）及计算机使用方面被宣称为当前全球领先的模型，并实现了性能与价格的双重突破。该模型API调用价格降至每百万Token输入5美元/输出25美元，比上代「Opus 4.1」降低了约三分之二。同时还更新了Claude开发者平台、Claude Code及消费者应用，并增强了对Excel、Chrome等工具的集成支持，智能体模式（Plan Mode）也得到升级。

参考：刚刚，智能体&编程新王Claude Opus 4.5震撼登场，定价大降2/3

腾讯混元推出全新开源模型「HunyuanOCR」，参数仅1B刷新多项SOTA

11月25日，腾讯混元推出全新开源模型「HunyuanOCR」，参数仅为1B，依托于混元原生多模态架构打造，获得多项业界OCR应用榜单SOTA成绩。该模型采用端到端的理念设计，由“原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型”三大部分组建构成，精通多语种复杂文档解析，同时兼具文字检测和识别能力，并支持14种高频小语种翻译。

参考：混元OCR模型宣布开源，参数仅1B，多项核心能力SOTA

Black Forest Labs发布开源图像生成模型「FLUX.2」

11月26日，Black Forest Labs发布开源图像生成模型「FLUX.2」，专为现实创意工作流程打造，可在8秒内生成400万像素高清图像，单次生成成本仅为0.003美元，以更低的价格实现类似「Nano Banana Pro」的效果。该模型基于潜空间的流匹配架构构建，并将图像生成与编辑整合在同一个模型中。本次发布包含Pro、Flex、Dev和预告中的Klein四个版本，其中Dev版参数精简40%，支持RTX 3060级别显卡运行，在文本生成图像、单参考编辑、多参考编辑等方面均达领先水平。

参考：爆火全网FLUX.2重磅上线，开源版Nano Banana来了！

阿里通义实验室推出新一代文本生成图像模型「Z-Image」

11月27日，阿里巴巴通义实验室推出新一代文本生成图像模型「Z-Image」，以仅6B参数的Turbo变体以8 NFEs实现亚秒级推理，16G显存即可运行，139秒生成20张高质量图。该模型采用可扩展的单流DiT（S3-DiT）架构，将文本与视觉信息融合处理，参数量减少三分之二的同时推理速度提升，RTX 4090上生成1024×1024图像仅需2.3秒。支持8步采样即达印刷级细节表现，在皮肤纹理、玻璃反光等复杂材质渲染上表现出色。

参考：阿里 Z-Image 封神！Turbo 版 139 秒 20 张图，质量在线 + 硬件友好，谁还选 Flux2

DeepSeek发布「DeepSeek Math-V2」新模型，夺下IMO 2025金牌

11月27日，DeepSeek发布了「DeepSeek Math-V2」新模型，相较于上一代「DeepSeek-Math-7b」及「Gemini DeepThink」等模型性能更优，以83.3%分夺下IMO 2025金牌。该模型核心突破在于从“结果导向”转向“过程导向”，构建了由“阅卷老师”（验证器）、“督导”（元验证机制）和“自省学生”（生成器）组成的系统，通过诚实奖励机制、自动化闭环等创新设计，实现可自我验证的数学推理，既提升了高难度数学证明题的解决能力，又大幅减少了大模型幻觉，为更强数学AI系统的发展提供了可行方向。

参考：DeepSeek强势回归，开源IMO金牌级数学模型

微软推出首款为“电脑操作代理”设计的开源语言模型「Fara-7B」

11月27日，微软推出首款专为“电脑操作代理（CUA）”设计的小型开源语言模型「Fara-7B」，只有7B参数却性能出众，能直接在本地设备（如搭载NPU的Copilot+ PC）运行，兼具低延迟与强隐私优势。该模型基于「Qwen2.5-VL-7B」训练，采用纯视觉路线，通过“观察-思考-行动”模式能直接读取网页截图、预测点击坐标并模拟鼠标键盘操作，可完成购买商品、整理Github更新、规划旅程等跨应用任务。

参考：微软推出 Fara-7B：能看、能操控电脑

AI Agent

北大哲学博士刘耕创办了一款AI短剧生成Agent「Elser.AI」

11月24日消息，北大哲学博士刘耕创办「Elser.AI」，一款AI短剧生成Agent，在完全没有宣传情况下积累了20万全球活跃用户。「Elser.AI」支持从剧本到分镜到成片的全流程创作，用户可控制角色形象、构图景深、运镜动作等所有细节，实现“创作平权”。海外版将于12月1日上线，全线接入「Nano Banana Pro」，所有在Waitlist登记的用户都将收到首波邀请。

参考：一人干翻一个剧组！北大哲学博士造出AI神器，20万人在排队用

Anthropic发布针对长程Agent的双Agent架构解决方案

11月27日，Anthropic发布Agent工程实践文章，针对长程Agent在多会话间难以保持进度一致的核心难题（如一次性蛮干耗尽上下文、过早宣布完工等），提出双Agent架构解决方案：初始化Agent负责搭建环境，生成包含所有功能需求（初始标记为 “未通过”）的JSON格式功能列表、init.sh脚本、进度文件及初始Git提交；编码Agent则通过增量开发、Git提交与进度记录、端到端测试（借助浏览器自动化工具）推进单个功能，同时每个编码Agent会话开始时会通过查看工作目录、Git日志、进度文件等快速了解项目状态。

参考：Anthropic再发Agent神文：像人类工程师一样思考，解决「长程任务」难题

AI 工具

Google旗下AI工具NotebookLM推出「Slide Decks」幻灯片生成功能

11月22日，Google旗下AI笔记工具NotebookLM推出「Slide Decks」幻灯片生成功能，用户只需导入PDF、网页或视频等原始资料，AI即可自动提炼核心信息并生成结构完整、逻辑清晰的演示文稿。新功能严格遵循源材料，避免事实幻觉，并由新型图像模型「Nano Banana Pro」提供专业配图。同时新增「Infographics」图表生成功能，将复杂数据转化为可视化摘要，全面提升知识工作者的内容产出效率。

参考：NotebookLM做了更新，是我想要的

阿里巴巴旗下AI助手「千问App」一周破千万，成史上增长最快的AI应用

11月24日，阿里巴巴旗下AI助手「千问App」公测一周，下载量突破1000万次，超越ChatGPT、Sora、DeepSeek成为全球增长最快的AI应用，并带动阿里港股单日涨幅超6%。过去一年，凭借通义千问大模型能力的跃升、开源模型在海外市场受到的认可及其带动的云业务增长等，AI成为驱动阿里股价上涨的第二增长曲线，抢占“AI时代的超级入口”的战略重要性正在不断上升。

参考：千问APP公测一周，下载量超10000000！

AI编程工具「Trae SOLO」中国版正式上线，全部功能完全免费

11月25日，字节跳动正式推出类似Cursor的AI编程工具「Trae SOLO」中国版，并带来SOLO Coder、Plan模式、多任务并行、代码变更工具DiffView、上下文压缩等核心能力，所有功能完全免费。此次「Trae SOLO」中国版的上线打破了海外AI编程工具的使用门槛，通过“技术平权”让更多非专业用户接触并使用编程能力，实现从“工具增强”到“流程简化”的突破。

参考：真香预警！TRAE SOLO中国版上线，全部功能免费

ChatGPT更新整合「语音模式」和上线「AI购物研究」功能

11月26日，OpenAI宣布ChatGPT完成重大功能迭代，将原独立的「语音模式」（Voice Mode）全面整合至主聊天界面，实现语音与文本交互的深度融合，用户可在语音交互时同步查看地图、图表等视觉内容并获取自动生成的文字转录稿，同时支持一键切换回纯音频模式以适配不同使用习惯。此外还推出了「AI购物研究」功能，上线支持iCloud钥匙串的Atlas AI浏览器新功能，在部分地区开放群聊功能，并通过性能更强的GPT-5.1模型进一步提升了对话智能度与流畅性。

参考：ChatGPT 完成重大功能迭代！

技术突破

南洋理工开源「PhysX-Anything」框架，实现单张图像生成仿真的3D资产

11月24日，南洋理工大学开源「PhysX-Anything」框架，首个面向仿真、具备物理属性的3D生成框架：仅需单张图像，即可生成高质量、可直接用于仿真的3D资产，并同时具备显式几何结构、关节运动以及物理参数，可直接用于MuJoCo等机器人仿真环境。该框架通过VLM驱动的物理建模和高效输出格式，为机器人仿真和具身智能提供了高质量资产来源。

参考：南洋理工开源PhysX-Anything：从单张图像生成可直接仿真的物理3D资产！

Google Research发布论文提出「嵌套学习」新机器学习范式

11月25日，近期Google Research发布的论文提出了「嵌套学习」（Nested Learning）新机器学习范式，将模型拆分为一组具有各自内部工作流程的嵌套优化问题，每个子问题拥有独立工作流程，可减轻甚至避免“灾难性遗忘”。该方法通过关联记忆、更新频率分层和优化器即记忆模块三大创新，实现“早期层高频刷，后期层低频整合”的新训练框架；基于此推出的HOPE模型在语言建模困惑度和常识推理准确率上均表现最优，在长上下文大海捞针任务中展现出卓越的内存管理能力。

参考：Google又发布了一篇可能改变AI未来的论文，这次它教AI拥有了记忆。

市场动态

美国白宫特朗普正式签署「创世纪计划」行政命令

参考：特朗普按下「创世纪」核按钮，AI曼哈顿计划正式启动！

超6000亿美元市场，「原生AI云厂商」打破巨头垄断格局

11月27日消息，IDC、沙利文等全球知名市研机构的云计算报告中都提到了一个新概念「原生AI云厂商」，在超 6000 亿美元的全球云计算市场，「原生AI云厂商」崛起打破了传统云巨头的垄断格局。报告显示，海外CoreWeave成头部玩家，国内商汤科技表现亮眼，2025年H1位列中国原生AI云厂商首位，2024年GenAI技术栈市场增长与创新指数国内第一、全球仅次于亚马逊云科技。与传统云巨头相比，「原生AI云厂商」在AI技术绑定、场景适配性等方面更具优势，但基础设施覆盖等存在短板。

参考：超6000亿美元市场，被原生AI云厂商撕开一道裂缝