DeepSeek V3.2 横扫四金，字节豆包 AI 手机首秀，OpenAI 拉响红色警报，GPT-5.2 下周紧急上线！| AI Weekly 12.1-12.7

木易AI信息差

398人浏览 · 2025-12-07 19:00:00

木易AI信息差 · 2025-12-07 19:00:00 发布

属于国产 AI 们的一周！

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🧠 DeepSeek V3.2 系列正式发布 ：DeepSeek 首个“边思考边调用工具”模型，V3.2-Speciale 在 IMO、ICPC、IOI 等国际竞赛中斩获金牌。

2️⃣ 🎨 火山引擎 Seedream 4.5 公测 ：支持最多 10 张参考图组合生成，海报排版和 Logo 设计能力大幅提升，约 0.04 美元/张。

3️⃣ 📱 字节发布豆包手机助手 ：国内首个系统级 AI 手机助手，与中兴合作工程样机售价 3499 元，上线 1 天售罄。

4️⃣ 💬 腾讯混元 2.0 发布 ：406B 参数 MoE 架构，256K 上下文窗口，官方称复杂推理稳居国内第一梯队。

5️⃣ 🎬 快手可灵 AI 一周双发 ：可灵 O1 首创统一多模态视频模型，可灵 2.6 实现音画同出，全年收入预计达 1.4 亿美元。

6️⃣ 💻 GPT-5.1-Codex-Max API 开放 ：OpenAI 最强编程模型，SWE-bench 得分 77.9%，支持跨上下文窗口连续推理超 24 小时。

7️⃣ 🚨 OpenAI 拉响红色警报 ：GPT-5.2 将于 12 月 9 日紧急上线，比原计划提前一周，应对 Gemini 3 竞争压力。

8️⃣ 🔮 谷歌推出 Gemini 3 Deep Think ：月费 250 美元起，采用并行推理技术，Humanity's Last Exam 达 41.0%，业界领先。

9️⃣ 🤖 谷歌发布 Workspace Studio ：自然语言创建 AI 智能体，深度集成 Gmail、Drive、Sheets 等应用，Alpha 期间执行超 2000 万次任务。

1️⃣0️⃣ 🇫🇷 Mistral 3 开源发布 ：675B 参数 MoE 旗舰模型，Apache 2.0 许可证开源，官方称比 OpenAI 旗舰便宜约 80%。

1️⃣1️⃣ 🎥 Runway Gen-4.5 登顶 ：以 1247 Elo 评分位列 AI 视频榜首，CEO 称“100 人团队击败万亿美元公司”。

01｜DeepSeek V3.2 正式版发布，首个“边思考边调用工具”模型

12 月 1 日，DeepSeek 同时发布 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 两款正式版模型。V3.2 是 DeepSeek 首个将思考融入工具调用的模型，支持思考模式与非思考模式下的工具调用。团队构建了 1800 余个环境、超 8.5 万条复杂指令用于 Agent 训练，智能体评测达到开源模型最高水平。官方称 V3.2 在推理基准上达到 GPT-5 水平，同时输出长度比 Kimi-K2-Thinking 大幅缩短。

V3.2-Speciale 是长思考增强版，融合 DeepSeek-Math-V2 的定理证明能力，主攻极限推理场景。该模型在 IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025 四项国际竞赛中均获金牌，其中 ICPC 和 IOI 成绩分别相当于人类选手第 2 名和第 10 名。Speciale 目前仅供研究使用，临时 API 开放至 12 月 15 日，不支持工具调用。

02｜火山引擎发布 Seedream 4.5，主打多图组合与商业级排版

12 月 3 日，火山引擎发布豆包图像创作模型 Seedream 4.5，现已开放公测。新版本重点强化多图组合生成能力，支持同时参考最多 10 张输入图像；海报排版和 Logo 设计功能同步优化，支持高精度图文混排。官方称前代“小人脸崩坏、小字模糊、多参考图混淆”等问题均有改善。

从社区测评看，Seedream 4.5 在光影层次和摄影美学方面表现突出，街拍、手机照等场景出图质量较高，但在世界知识理解方面仍落后于谷歌 Nano Banana Pro，涉及具体人物、品牌、专业领域时容易“有形无神”。个人用户可通过豆包、即梦、火山方舟免费体验，企业用户和开发者可通过火山引擎 API 调用，定价与 4.0 相近，约 0.04 美元 / 张。

03｜字节发布豆包手机助手，与中兴合作首款工程样机售价 3499 元

12 月 1 日，字节豆包团队发布豆包手机助手技术预览版，这是国内互联网公司首次在 AI 手机操作系统层面公开探索成果。字节明确表示无自研手机计划，将以“生态合作”模式将助手整合进不同品牌机型。首款工程样机为中兴旗下努比亚 M153，搭载骁龙 8 至尊版处理器、16GB + 512GB 存储，售价 3499 元，备货约 3 万台，上线 1 天即售罄。

豆包手机助手的核心卖点是系统级 AI 权限：不同于普通 App，它被签名为操作系统组件，可直接注入模拟点击事件，实现跨应用无感操作。演示场景包括全平台比价下单、批量查物流、一句话下载多个软件等。助手支持语音、侧边键、豆包 Ola Friend 耳机唤醒，并提供记忆功能和“操作手机 Pro 模式”。不过官方也坦承，受大模型技术不确定性限制，演示场景无法保证百分百复现，产品与预期仍有差距。消息公布当日，中兴通讯 A 股涨停。

04｜腾讯混元 2.0 发布：406B 参数 MoE，256K 上下文

12 月 5 日，腾讯发布自研大模型 混元 2.0（Tencent HY 2.0），包含推理版 HY 2.0 Think 和指令版 HY 2.0 Instruct。模型采用 MoE 架构，总参数 406B，激活参数 32B，上下文窗口 256K。官方称在 IMO-AnswerBench、HMMT 2025 等数学竞赛测试中取得“一流成绩”，SWE-bench Verified 代码任务和 Tau2-Bench 智能体任务上“实现跃升”，复杂推理综合表现“稳居国内第一梯队”。

HY 2.0 Think 相比前代在数学、科学、代码、指令遵循等场景均有提升，采用 Large Rollout 强化学习和长窗口 RL 训练。模型已接入元宝和 ima 等腾讯原生应用，腾讯云同步上线 API。官方透露后续将在代码、智能体、个性化风格、长程记忆等方向继续迭代，并计划开源。

05｜快手可灵一周双发：O1 统一多模态模型 + 2.6 音画同出

快手可灵 AI 本周连发两款新模型。12 月 1 日上线的 可灵 O1 号称“全球首个统一多模态视频模型”，将生成、编辑、理解融于一体，基于 MVL（多模态视觉语言）架构，用户无需切换工具，在单一输入框内即可完成文生视频、图生视频、局部编辑、风格转换等全流程操作。输入“移除路人”或“将白天改为黄昏”，模型自动完成像素级语义重构，无需手动遮罩或关键帧。内测盲评显示，O1 在图片参考生成上胜率达谷歌 Veo 3.1 Fast 的 247%，指令变换胜率达 Runway Aleph 的 230%。

12 月 3 日发布的 可灵 2.6 则是可灵首个“音画同出”模型，单次生成即可同时产出画面、自然语音、音效和环境氛围音，支持独白、旁白、多人对白、音乐表演等场景。可灵 AI 商业化势头强劲。快手预计 2025 年可灵全年收入将达 1.4 亿美元（约 10 亿人民币），较年初目标翻倍；全球用户超 4500 万，累计生成超 2 亿个视频。

06｜OpenAI 开放 GPT-5.1-Codex-Max API，定价与 GPT-5 持平

12 月 5 日，OpenAI 向开发者正式开放 GPT-5.1-Codex-Max 的 API 访问，定价为输入 1.25 美元 / 百万 token、输出 10 美元 / 百万 token，与 GPT-5 持平。该模型 11 月 19 日发布时仅限 Codex CLI 和高级订阅用户使用，现已成为 Codex 服务的默认模型，GitHub Copilot 用户也可在模型选择器中调用。Cursor 和 Windsurf 已同步跟进，Cursor 在 12 月 11 日前免费开放使用，Windsurf 则向付费用户限时免费提供低推理模式。

GPT-5.1-Codex-Max 是 OpenAI 目前最强的编程模型，SWE-bench Verified 得分 77.9%，比 GPT-5.1-Codex 提升 4 个百分点；SWE-Lancer 达 79.9%，提升超 13 个百分点。核心技术是“compaction”：模型可跨多个上下文窗口保持连贯推理，内部测试中曾连续工作超过 24 小时。同等推理强度下，thinking token 消耗减少 30%。这也是首个原生支持 Windows 环境的 Codex 模型。

07｜OpenAI 拉响“红色警报”，GPT-5.2 下周二紧急上线

OpenAI 计划于 12 月 9 日发布 GPT-5.2，比原定时间提前约一周。据 The Verge 报道，CEO Sam Altman 本周在内部宣布“Code Red”，要求团队加速应对谷歌 Gemini 3 带来的竞争压力。这将是 OpenAI 史上最快的版本迭代：GPT-5 8 月发布，GPT-5.1 11 月跟进，GPT-5.2 间隔不到一个月。

知情人士透露，GPT-5.2 定位为“性能补丁”而非功能更新，重点改进速度、稳定性和可定制性，目标是缩小与 Gemini 3 在多项基准测试上的差距。内部测试显示新模型已领先 Gemini 3。这是自 2022 年 ChatGPT 发布以来，OpenAI 首次因竞争对手而公开承认“紧急状态”。

08｜谷歌推出 Gemini 3 Deep Think，月费 250 美元起

12 月 4 日，谷歌向 Google AI Ultra 订阅用户（月费 249.99 美元）开放 Gemini 3 Deep Think 模式。这是谷歌目前最强的推理模式，采用“高级并行推理”技术同时探索多条假设路径，专为复杂数学、科学和逻辑问题设计。基准测试表现亮眼：Humanity’s Last Exam 达 41.0%（无工具），ARC-AGI-2 达 45.1%（带代码执行），均为业界领先水平。

Deep Think 基于此前在 IMO 和 ICPC 达到金牌水平的 Gemini 2.5 Deep Think 改进而来。代价是响应时间，通常需要几分钟才能返回结果，系统会在完成后推送通知。Ultra 订阅除 Deep Think 外还包括 Veo 3.1 视频生成、30TB 云存储和 25000 AI 积分，定位企业和重度用户。普通用户可继续使用 Gemini 3 Pro 的标准推理模式。

09｜谷歌发布 Workspace Studio，自然语言创建 AI 智能体

12 月 4 日，谷歌正式发布 Workspace Studio，用户可通过自然语言描述创建、管理和分享 AI 智能体，无需编写代码。例如输入“每周五提醒我更新进度表”，Gemini 3 会自动构建对应的自动化流程。智能体深度集成 Gmail、Drive、Sheets、Chat 等 Workspace 应用，还支持连接 Asana、Jira、Mailchimp、Salesforce 等第三方服务。

与传统规则驱动的自动化工具不同，Workspace Studio 智能体具备推理和上下文理解能力，可处理情感分析、内容生成、智能分流等复杂任务。Alpha 测试期间，用户在 30 天内执行了超过 2000 万次任务。该功能 12 月 4 日起向 Rapid Release 域名用户推送，Scheduled Release 域名用户将于 2026 年 1 月 5 日获得访问权限。18 岁以下用户无法创建智能体或使用 AI 功能。

10｜Mistral 发布 Mistral 3 开源旗舰 MoE 模型，675B 参数

12 月 2 日，法国 AI 公司 Mistral AI 发布 Mistral 3 系列模型，包括旗舰款 Mistral Large 3 和三款小型密集模型 Ministral 3（3B / 8B / 14B）。Mistral Large 3 采用稀疏混合专家（MoE）架构，总参数 675B、激活参数 41B，上下文窗口 256K，支持 40 余种语言及图像理解；在 LMArena 排名开源非推理模型第 2、开源模型整体第 6。全系列均以 Apache 2.0 许可证开源，使用约 3000 块 NVIDIA H200 GPU 训练。

价格是主要卖点，官方称比 OpenAI 旗舰模型便宜约 80%。Ministral 3 系列专为边缘场景设计，3B 版本仅 3GB 大小，可在浏览器中本地运行；官方定位机器人、无人机、手机等离线设备应用。Mistral 9 月刚完成 17 亿欧元融资，估值达 117 亿欧元，正加速追赶美国竞争对手。

11｜Runway 发布 Gen-4.5，100 人团队登顶 AI 视频榜单

12 月 1 日，AI 视频公司 Runway 发布 Gen-4.5 模型，此前以代号“Whisper Thunder (aka) David”匿名登顶 Artificial Analysis 视频榜单。Gen-4.5 以 1247 Elo 评分位列第一，超越谷歌 Veo 3 / Veo 3.1（第四）和 OpenAI Sora 2 Pro（第七）。模型基于 NVIDIA Hopper 和 Blackwell GPU 训练，采用 Autoregressive-to-Diffusion（A2D）架构，在物理模拟、运动质量和提示词遵循方面均有显著提升。

CEO Cristóbal Valenzuela 透露，代号“David”取自圣经大卫与歌利亚的故事：“我们用 100 人的团队击败了万亿美元公司”。Runway 成立于 2018 年，目前估值 35.5 亿美元，客户涵盖媒体机构、影视工作室和创意从业者。不过 Gen-4.5 尚不支持原生音频生成，这方面仍落后于 Veo 3。模型本周内向全部用户开放，后续还将通过 API 和合作伙伴渠道提供。