属于国产 AI 们的一周!

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🧠 DeepSeek V3.2 系列正式发布 :DeepSeek 首个“边思考边调用工具”模型,V3.2-Speciale 在 IMO、ICPC、IOI 等国际竞赛中斩获金牌。

2️⃣ 🎨 火山引擎 Seedream 4.5 公测 :支持最多 10 张参考图组合生成,海报排版和 Logo 设计能力大幅提升,约 0.04 美元/张。

3️⃣ 📱 字节发布豆包手机助手 :国内首个系统级 AI 手机助手,与中兴合作工程样机售价 3499 元,上线 1 天售罄。

4️⃣ 💬 腾讯混元 2.0 发布 :406B 参数 MoE 架构,256K 上下文窗口,官方称复杂推理稳居国内第一梯队。

5️⃣ 🎬 快手可灵 AI 一周双发可灵 O1 首创统一多模态视频模型,可灵 2.6 实现音画同出,全年收入预计达 1.4 亿美元。

6️⃣ 💻 GPT-5.1-Codex-Max API 开放 :OpenAI 最强编程模型,SWE-bench 得分 77.9%,支持跨上下文窗口连续推理超 24 小时。

7️⃣ 🚨 OpenAI 拉响红色警报GPT-5.2 将于 12 月 9 日紧急上线,比原计划提前一周,应对 Gemini 3 竞争压力。

8️⃣ 🔮 谷歌推出 Gemini 3 Deep Think :月费 250 美元起,采用并行推理技术,Humanity's Last Exam 达 41.0%,业界领先。

9️⃣ 🤖 谷歌发布 Workspace Studio :自然语言创建 AI 智能体,深度集成 Gmail、Drive、Sheets 等应用,Alpha 期间执行超 2000 万次任务。

1️⃣0️⃣ 🇫🇷 Mistral 3 开源发布 :675B 参数 MoE 旗舰模型,Apache 2.0 许可证开源,官方称比 OpenAI 旗舰便宜约 80%。

1️⃣1️⃣ 🎥 Runway Gen-4.5 登顶 :以 1247 Elo 评分位列 AI 视频榜首,CEO 称“100 人团队击败万亿美元公司”。


01|DeepSeek V3.2 正式版发布,首个“边思考边调用工具”模型

12 月 1 日,DeepSeek 同时发布 DeepSeek-V3.2DeepSeek-V3.2-Speciale 两款正式版模型。V3.2 是 DeepSeek 首个将思考融入工具调用的模型,支持思考模式与非思考模式下的工具调用。团队构建了 1800 余个环境、超 8.5 万条复杂指令用于 Agent 训练,智能体评测达到开源模型最高水平。官方称 V3.2 在推理基准上达到 GPT-5 水平,同时输出长度比 Kimi-K2-Thinking 大幅缩短。

V3.2-Speciale 是长思考增强版,融合 DeepSeek-Math-V2 的定理证明能力,主攻极限推理场景。该模型在 IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025 四项国际竞赛中均获金牌,其中 ICPC 和 IOI 成绩分别相当于人类选手第 2 名和第 10 名。Speciale 目前仅供研究使用,临时 API 开放至 12 月 15 日,不支持工具调用。


02|火山引擎发布 Seedream 4.5,主打多图组合与商业级排版

12 月 3 日,火山引擎发布豆包图像创作模型 Seedream 4.5,现已开放公测。新版本重点强化多图组合生成能力,支持同时参考最多 10 张输入图像;海报排版和 Logo 设计功能同步优化,支持高精度图文混排。官方称前代“小人脸崩坏、小字模糊、多参考图混淆”等问题均有改善。

从社区测评看,Seedream 4.5 在光影层次和摄影美学方面表现突出,街拍、手机照等场景出图质量较高,但在世界知识理解方面仍落后于谷歌 Nano Banana Pro,涉及具体人物、品牌、专业领域时容易“有形无神”。个人用户可通过豆包、即梦、火山方舟免费体验,企业用户和开发者可通过火山引擎 API 调用,定价与 4.0 相近,约 0.04 美元 / 张。


03|字节发布豆包手机助手,与中兴合作首款工程样机售价 3499 元

12 月 1 日,字节豆包团队发布豆包手机助手技术预览版,这是国内互联网公司首次在 AI 手机操作系统层面公开探索成果。字节明确表示无自研手机计划,将以“生态合作”模式将助手整合进不同品牌机型。首款工程样机为中兴旗下努比亚 M153,搭载骁龙 8 至尊版处理器、16GB + 512GB 存储,售价 3499 元,备货约 3 万台,上线 1 天即售罄。

豆包手机助手的核心卖点是系统级 AI 权限:不同于普通 App,它被签名为操作系统组件,可直接注入模拟点击事件,实现跨应用无感操作。演示场景包括全平台比价下单、批量查物流、一句话下载多个软件等。助手支持语音、侧边键、豆包 Ola Friend 耳机唤醒,并提供记忆功能和“操作手机 Pro 模式”。不过官方也坦承,受大模型技术不确定性限制,演示场景无法保证百分百复现,产品与预期仍有差距。消息公布当日,中兴通讯 A 股涨停。


04|腾讯混元 2.0 发布:406B 参数 MoE,256K 上下文

12 月 5 日,腾讯发布自研大模型 混元 2.0(Tencent HY 2.0),包含推理版 HY 2.0 Think 和指令版 HY 2.0 Instruct。模型采用 MoE 架构,总参数 406B,激活参数 32B,上下文窗口 256K。官方称在 IMO-AnswerBench、HMMT 2025 等数学竞赛测试中取得“一流成绩”,SWE-bench Verified 代码任务和 Tau2-Bench 智能体任务上“实现跃升”,复杂推理综合表现“稳居国内第一梯队”。

HY 2.0 Think 相比前代在数学、科学、代码、指令遵循等场景均有提升,采用 Large Rollout 强化学习和长窗口 RL 训练。模型已接入元宝和 ima 等腾讯原生应用,腾讯云同步上线 API。官方透露后续将在代码、智能体、个性化风格、长程记忆等方向继续迭代,并计划开源。


05|快手可灵一周双发:O1 统一多模态模型 + 2.6 音画同出

快手可灵 AI 本周连发两款新模型。12 月 1 日上线的 可灵 O1 号称“全球首个统一多模态视频模型”,将生成、编辑、理解融于一体,基于 MVL(多模态视觉语言)架构,用户无需切换工具,在单一输入框内即可完成文生视频、图生视频、局部编辑、风格转换等全流程操作。输入“移除路人”或“将白天改为黄昏”,模型自动完成像素级语义重构,无需手动遮罩或关键帧。内测盲评显示,O1 在图片参考生成上胜率达谷歌 Veo 3.1 Fast 的 247%,指令变换胜率达 Runway Aleph 的 230%。

12 月 3 日发布的 可灵 2.6 则是可灵首个“音画同出”模型,单次生成即可同时产出画面、自然语音、音效和环境氛围音,支持独白、旁白、多人对白、音乐表演等场景。可灵 AI 商业化势头强劲。快手预计 2025 年可灵全年收入将达 1.4 亿美元(约 10 亿人民币),较年初目标翻倍;全球用户超 4500 万,累计生成超 2 亿个视频。


06|OpenAI 开放 GPT-5.1-Codex-Max API,定价与 GPT-5 持平

12 月 5 日,OpenAI 向开发者正式开放 GPT-5.1-Codex-Max 的 API 访问,定价为输入 1.25 美元 / 百万 token、输出 10 美元 / 百万 token,与 GPT-5 持平。该模型 11 月 19 日发布时仅限 Codex CLI 和高级订阅用户使用,现已成为 Codex 服务的默认模型,GitHub Copilot 用户也可在模型选择器中调用。Cursor 和 Windsurf 已同步跟进,Cursor 在 12 月 11 日前免费开放使用,Windsurf 则向付费用户限时免费提供低推理模式。

GPT-5.1-Codex-Max 是 OpenAI 目前最强的编程模型,SWE-bench Verified 得分 77.9%,比 GPT-5.1-Codex 提升 4 个百分点;SWE-Lancer 达 79.9%,提升超 13 个百分点。核心技术是“compaction”:模型可跨多个上下文窗口保持连贯推理,内部测试中曾连续工作超过 24 小时。同等推理强度下,thinking token 消耗减少 30%。这也是首个原生支持 Windows 环境的 Codex 模型。


07|OpenAI 拉响“红色警报”,GPT-5.2 下周二紧急上线

OpenAI 计划于 12 月 9 日发布 GPT-5.2,比原定时间提前约一周。据 The Verge 报道,CEO Sam Altman 本周在内部宣布“Code Red”,要求团队加速应对谷歌 Gemini 3 带来的竞争压力。这将是 OpenAI 史上最快的版本迭代:GPT-5 8 月发布,GPT-5.1 11 月跟进,GPT-5.2 间隔不到一个月。

知情人士透露,GPT-5.2 定位为“性能补丁”而非功能更新,重点改进速度、稳定性和可定制性,目标是缩小与 Gemini 3 在多项基准测试上的差距。内部测试显示新模型已领先 Gemini 3。这是自 2022 年 ChatGPT 发布以来,OpenAI 首次因竞争对手而公开承认“紧急状态”。


08|谷歌推出 Gemini 3 Deep Think,月费 250 美元起

12 月 4 日,谷歌向 Google AI Ultra 订阅用户(月费 249.99 美元)开放 Gemini 3 Deep Think 模式。这是谷歌目前最强的推理模式,采用“高级并行推理”技术同时探索多条假设路径,专为复杂数学、科学和逻辑问题设计。基准测试表现亮眼:Humanity’s Last Exam 达 41.0%(无工具),ARC-AGI-2 达 45.1%(带代码执行),均为业界领先水平。

Deep Think 基于此前在 IMO 和 ICPC 达到金牌水平的 Gemini 2.5 Deep Think 改进而来。代价是响应时间,通常需要几分钟才能返回结果,系统会在完成后推送通知。Ultra 订阅除 Deep Think 外还包括 Veo 3.1 视频生成、30TB 云存储和 25000 AI 积分,定位企业和重度用户。普通用户可继续使用 Gemini 3 Pro 的标准推理模式。


09|谷歌发布 Workspace Studio,自然语言创建 AI 智能体

12 月 4 日,谷歌正式发布 Workspace Studio,用户可通过自然语言描述创建、管理和分享 AI 智能体,无需编写代码。例如输入“每周五提醒我更新进度表”,Gemini 3 会自动构建对应的自动化流程。智能体深度集成 Gmail、Drive、Sheets、Chat 等 Workspace 应用,还支持连接 Asana、Jira、Mailchimp、Salesforce 等第三方服务。

与传统规则驱动的自动化工具不同,Workspace Studio 智能体具备推理和上下文理解能力,可处理情感分析、内容生成、智能分流等复杂任务。Alpha 测试期间,用户在 30 天内执行了超过 2000 万次任务。该功能 12 月 4 日起向 Rapid Release 域名用户推送,Scheduled Release 域名用户将于 2026 年 1 月 5 日获得访问权限。18 岁以下用户无法创建智能体或使用 AI 功能。


10|Mistral 发布 Mistral 3 开源旗舰 MoE 模型,675B 参数

12 月 2 日,法国 AI 公司 Mistral AI 发布 Mistral 3 系列模型,包括旗舰款 Mistral Large 3 和三款小型密集模型 Ministral 3(3B / 8B / 14B)。Mistral Large 3 采用稀疏混合专家(MoE)架构,总参数 675B、激活参数 41B,上下文窗口 256K,支持 40 余种语言及图像理解;在 LMArena 排名开源非推理模型第 2、开源模型整体第 6。全系列均以 Apache 2.0 许可证开源,使用约 3000 块 NVIDIA H200 GPU 训练。

价格是主要卖点,官方称比 OpenAI 旗舰模型便宜约 80%。Ministral 3 系列专为边缘场景设计,3B 版本仅 3GB 大小,可在浏览器中本地运行;官方定位机器人、无人机、手机等离线设备应用。Mistral 9 月刚完成 17 亿欧元融资,估值达 117 亿欧元,正加速追赶美国竞争对手。


11|Runway 发布 Gen-4.5,100 人团队登顶 AI 视频榜单

12 月 1 日,AI 视频公司 Runway 发布 Gen-4.5 模型,此前以代号“Whisper Thunder (aka) David”匿名登顶 Artificial Analysis 视频榜单。Gen-4.5 以 1247 Elo 评分位列第一,超越谷歌 Veo 3 / Veo 3.1(第四)和 OpenAI Sora 2 Pro(第七)。模型基于 NVIDIA Hopper 和 Blackwell GPU 训练,采用 Autoregressive-to-Diffusion(A2D)架构,在物理模拟、运动质量和提示词遵循方面均有显著提升。

CEO Cristóbal Valenzuela 透露,代号“David”取自圣经大卫与歌利亚的故事:“我们用 100 人的团队击败了万亿美元公司”。Runway 成立于 2018 年,目前估值 35.5 亿美元,客户涵盖媒体机构、影视工作室和创意从业者。不过 Gen-4.5 尚不支持原生音频生成,这方面仍落后于 Veo 3。模型本周内向全部用户开放,后续还将通过 API 和合作伙伴渠道提供。


我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用 AI 为你的未来加速。


精选推荐

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐