2026 春节第一周,神仙打架!

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🧠 谷歌发布 Gemini 3.1 Pro :ARC-AGI-2 推理得分从 31.1% 跃升至 77.1%,13 项基准第一,API 定价仅为 Opus 4.6 的一半,但办公场景人类评估仍落后于 Claude。

2️⃣ 🎵 谷歌上线 Lyria 3 音乐模型 :输入文字或图片即可生成 30 秒带人声立体声音轨,支持 8 种语言含中文,同步登陆 YouTube Dream Track,定位社交分享而非专业创作。

3️⃣ ⚡ Anthropic 发布 Claude Sonnet 4.6 :Sonnet 价格做到 Opus 性能,上下文翻倍至 100 万 tokens,办公任务评估 1633 Elo 反超 Opus 4.6,已成为 Claude 默认模型。

4️⃣ 🔒 Anthropic 推出 Claude Code Security :像人类安全研究员一样通读代码追踪漏洞,已在开源项目中挖出 500+ 零日漏洞,消息当天网络安全板块集体大跌。

5️⃣ 🤖 xAI 推出 Grok 4.2 :内置 4 个专业智能体并行协作,幻觉率降低 65%,上下文最高 200 万 tokens,支持发布后基于用户反馈持续迭代进化。

6️⃣ 🐲 阿里除夕夜上线 Qwen3.5 :3970 亿参数仅激活 170 亿,推理吞吐量最高提升 19 倍,API 低至 0.8 元/百万 token,多项基准超越 GPT-5.2Claude 4.5

7️⃣ 👤 OpenAI 招揽 OpenClaw 创始人 :Sam Altman 称个人智能体将很快成为核心产品,OpenClaw 项目转入独立基金会保持开源,GitHub 星标近 20 万。

8️⃣ 🤝 印度 AI 峰会名场面 :Modi 总理拉众人牵手,Sam Altman 与 Dario Amodei 全程拒绝握手,双方在印度分别宣布开设办公室并签署合作协议。

9️⃣ 💬 Manus 入驻 Telegram :扫码即可在聊天窗口执行研究、数据处理、PDF 生成等复杂任务,零门槛无需 API 配置,计划 30 天内扩展至 WhatsApp、Slack 等平台。

🔟 🚨 OpenClaw 遭多家企业封杀 :超 4 万实例暴露于公网,63% 存在漏洞,Meta 警告员工安装可能导致解雇,智能体时代核心矛盾浮现:能力越强,攻击面越大。


01|谷歌发布「Gemini 3.1 Pro」,ARC-AGI-2 推理翻倍

2 月 19 日,谷歌发布 Gemini 3.1 Pro,距 Gemini 3 Pro 上线仅三个月。ARC-AGI-2 推理测试得分从 3 Pro 的 31.1% 跃升至 77.1%,翻了近 2.5 倍,超过 Claude Opus 4.6 的 68.8% 和 GPT-5.2 的 52.9%。谷歌自报在 16 项基准中拿下 13 项第一,GPQA Diamond 科学推理 94.3%、APEX-Agents 自主任务 33.5%,均领先竞品。API 定价不变,输入 2 美元、输出 12 美元/百万 token,仅为 Opus 4.6 的一半。

不过并非全面碾压。GDPval-AA 专家任务评估中 Gemini 3.1 Pro 仅 1317 Elo,远低于 Claude Sonnet 4.6 的 1633,意味着真实办公场景中人类评估者仍更青睐 Claude 的输出质量。SWE-Bench Verified 编程基准两家几乎打平,Opus 4.6 以 80.8% 对 80.6% 微弱领先;Terminal-Bench 2.0 终端编程则被 GPT-5.3-Codex 的 77.3% 甩开近 9 个百分点。

模型目前以预览版上线,支持 100 万 token 上下文和 6.4 万 token 输出。消费端已在 Gemini 应用和 NotebookLM 向 Pro、Ultra 订阅用户开放,开发者可通过 AI Studio、Vertex AI、Gemini CLI 接入。这是 Gemini 系列首次采用「.1」而非「.5」作为中期更新编号,迭代节奏明显加快。


02|谷歌上线「Lyria 3」音乐生成模型,30 秒出歌叫板 Suno

2 月 18 日,谷歌将 DeepMind 最新音乐模型 Lyria 3 接入 Gemini 应用,用户输入文字描述或上传图片/视频,几秒内即可生成带人声、歌词和封面的 30 秒 48kHz 立体声音轨。支持从流行到 R&B 等多种风格,可控制人声类型、节奏和编曲细节,所有输出均嵌入 SynthID 水印标识 AI 生成。功能面向全球 18 岁以上用户开放,支持英语、日语、韩语等 8 种语言(实测可生成中文、甚至是方言歌曲),付费订阅用户享有更高调用额度。

Lyria 3 同步上线 YouTube Dream Track,供创作者为 Shorts 短视频生成配乐,覆盖范围从此前仅限美国扩展至全球。不过与 Suno 能生成 4 分钟完整歌曲、Udio 支持 2 分钟输出相比,30 秒上限让 Lyria 3 更适合社交分享和短视频配乐,离专业音乐制作仍有距离。实测显示模型在主流风格上表现流畅,但处理冷门曲风时容易跑偏。谷歌将其定位为「趣味表达工具」而非创作替代品,明确表示不会模仿特定艺术家。


03|Anthropic 发布「Claude Sonnet 4.6」,Sonnet 价格,Opus 性能

2 月 17 日,Anthropic 发布 Claude Sonnet 4.6,距 Opus 4.6 上线仅 12 天。上下文窗口翻倍至 100 万 tokens,定价维持 Sonnet 4.5 水平,输入 3 美元、输出 15 美元/百万 token。SWE-bench Verified 编程得分 79.6%,逼近 Opus 4.6 的 80.8%;OSWorld 计算机操控 72.5%,与 Opus 的 72.7% 几乎持平,16 个月内从 14.9% 提升近 5 倍。GDPval-AA 办公任务评估中 Sonnet 4.6 拿下 1633 Elo,反超 Opus 4.6 的 1606,金融分析同样以 63.3% 领先全场。

这意味着过去需要 Opus 级模型才能完成的办公和编程任务,现在用 Sonnet 就够了。Claude Code 内测中 70% 的开发者更偏好 Sonnet 4.6 而非前代,59% 甚至偏好它胜过去年的 Opus 4.5。GitHub VP Joe Binder 评价称该模型在大型代码库搜索和复杂修复上表现出色,一致性是其最大提升。模型已成为 Claude 和 Claude Cowork 免费及 Pro 用户的默认选项,API、Claude Code 及各大云平台同步可用。


04|Anthropic 推出「Claude Code Security」,已挖出 500+ 开源零日漏洞

2 月 20 日,Anthropic 发布 Claude Code Security,以限定研究预览形式向企业版和团队版客户开放,开源项目维护者可获优先免费接入。与传统静态分析工具基于已知规则匹配不同,Claude Code Security 像人类安全研究员一样通读代码,追踪数据流向和组件交互,识别业务逻辑缺陷、权限绕过等复杂漏洞。每个发现经多轮自我验证过滤误报,附带严重性评级、置信度评分和修复补丁建议,所有修复须经人工审批才会生效。

Anthropic 的 Frontier Red Team 用 Opus 4.6 在生产级开源代码库中发现超 500 个此前未知的高危漏洞,其中部分隐藏数十年未被专家审查发现,目前正在与维护者进行负责任披露。团队还参加了 CTF 竞赛,并与美国太平洋西北国家实验室合作测试 AI 防御关键基础设施的能力。消息发布当天,网络安全板块集体下挫,CrowdStrike 跌 8%、Cloudflare 跌 8.1%、SailPoint 跌 9.4%,Global X 网络安全 ETF 跌至 2023 年 11 月以来新低。


05|马斯克 xAI 推出「Grok 4.2」,4 个 AI 智能体协同作答

2 月 17 日,马斯克在 X 平台宣布 Grok 4.2 候选版公测上线,距 Grok 4.1 发布约 3 个月。最大变化是架构层面的突破,模型不再是单一推理流程,而是内置 4 个专业智能体并行协作,分别负责协调决策、事实检索、逻辑计算和创意生成,先各自分析再相互质疑辩论,最终合成统一回答。xAI 称该机制将幻觉率从约 12% 降至 4.2%,降幅 65%。上下文窗口最高 200 万 tokens,支持文本、图片和视频输入。

另一个值得关注的变化是「快速学习」能力,Grok 4.2 可基于用户反馈每周迭代更新并附带更新说明,是 Grok 系列首个发布后持续进化的版本。此前在 Alpha Arena 实盘股票交易竞赛中,该模型以约 12% 的收益率胜出,同期 GPT-5.1Gemini 3 Pro 均录得亏损。不过官方基准测试数据尚未公布,xAI 表示将在 beta 结束后(预计 3 月)正式披露。目前所有用户均可在 Grok 网页端和移动端手动选择体验。


06|阿里除夕夜上线「Qwen3.5」,3970 亿参数只激活 170 亿

2 月 16 日除夕当天,阿里低调上线 Qwen3.5-397B-A17B 模型。架构全面革新,采用线性注意力(Gated Delta Networks)与稀疏 MoE 混合设计,总参数 3970 亿但每次推理仅激活 170 亿,性能超过万亿参数的 Qwen3-Max,显存占用降低 60%,256k 上下文场景下推理吞吐量提升最高 19 倍。API 价格低至 0.8 元/百万 token,约为 Gemini 3 Pro 的 1/18。

基准测试方面,MMLU-Pro 认知评测 87.8 分超过 GPT-5.2,博士级难题 GPQA 拿下 88.4 分高于 Claude 4.5,指令遵循 IFBench 以 76.5 分刷新所有模型纪录。模型原生支持多模态,文本、图片、视频统一处理,语言覆盖从 119 种扩展至 201 种,词表从 15 万扩至 25 万,多数语言编解码效率提升 10%~60%。开源版 Qwen3.5-397B-A17B 定位旗舰,后续还将发布不同尺寸变体及更强的 Qwen3.5-Max。千问 App 日活已达 7352 万,活动期间完成 1.2 亿笔 AI 购物订单。


07|OpenAI 招揽 OpenClaw 创始人,押注个人 AI 智能体

2 月 15 日,OpenAI CEO Sam Altman 宣布,现象级开源智能体项目 OpenClaw 创始人 Peter Steinberger 加入 OpenAI,负责推动下一代个人智能体开发。Sam Altman 称个人智能体将「很快成为 OpenAI 核心产品」,并强调未来将是「极度多智能体」的格局。OpenClaw 项目将转入独立基金会,保持开源并继续获得 OpenAI 资助。

OpenClaw 去年 11 月上线后迅速走红,GitHub 星标近 20 万,用户已创建超 150 万个 AI 智能体。它能常驻用户设备,接管邮件、日历、航班预订等日常任务,支持 WhatsApp、Telegram、iMessage 等主流通讯平台。Peter Steinberger 此前花了数周在旧金山与多家顶级 AI 实验室会面,最终选择 OpenAI,理由是「我想改变世界,不是建一家大公司,和 OpenAI 合作是最快的路径」。


08|印度 AI 峰会名场面,Sam Altman 与 Dario Amodei 拒绝牵手

2 月 19 日,印度 AI Impact Summit 在新德里开幕,超 100 个国家代表团、20 余位国家元首和全球科技巨头齐聚。Modi 总理在开幕式后拉起谷歌 CEO Sundar Pichai 和 OpenAI CEO Sam Altman 的手高举致意,示意台上 13 位科技领袖效仿。众人纷纷握手举臂,唯独站在一起的 Sam Altman 和 Anthropic CEO Dario Amodei 各自举起了拳头,全程没有牵手。画面迅速在社交媒体刷屏,Puch AI 联合创始人评论称「什么时候实现 AGI?就在 Dario 和 Sam 牵手那天」。Altman 事后回应「我当时很困惑,Modi 抓起我的手举起来,我不知道该干什么」。Anthropic 则拒绝置评。

Anthropic 此前在超级碗投放广告嘲讽 OpenAI 计划引入广告,Sam Altman 公开称其「明显不诚实」。不过双方在印度都没闲着,OpenAI 宣布在印度开设两个新办公室并与 TCS 合作,Anthropic 则设立印度办事处并与 Infosys 达成部署协议。Sam Altman 在主旨演讲中表示距早期超级智能「可能只有几年」,Dario Amodei 则预测先进 AI 可能为印度带来 25% 的年 GDP 增速。峰会最终有约 70 个签署方承诺加入「德里宣言」,强调 AI 收益应由全人类共享。


09|Manus 入驻 Telegram,把 AI 智能体塞进聊天窗口

2 月 16 日,被 Meta 收购不久的 Manus 推出 Manus Agents,将完整的多步骤任务执行能力嵌入即时通讯应用,首站 Telegram,所有订阅层级用户均可使用。扫描二维码即可在一分钟内完成绑定,无需命令行或 API 配置。在聊天窗口中可直接发起研究、数据处理、PDF 生成、图片制作等复杂任务,支持语音、图片和文件输入,提供 Manus 1.6 Max(深度推理)和 Manus 1.6 Lite(快速响应)两档模型切换。

这一思路与刚被 OpenAI 收编的 OpenClaw 类似,但 Manus 主打零门槛,省去了后者复杂的安装和维护流程。联合创始人张涛表示未来 30 天内将加速扩展至 WhatsApp、LINE、Slack 和 Discord,并计划推出 Windows 和 Mac 原生客户端以及 PC 操控能力。不过上线后不久 Telegram 曾短暂封禁 Manus 的智能体账号,双方均未公开回应。值得玩味的是,Manus 选择在 Telegram 而非母公司 Meta 旗下的 WhatsApp 首发,此前欧盟委员会指出 Meta 实质上阻止了第三方 AI 助手接入 WhatsApp。


10|OpenClaw 遭多家科技公司封杀,4 万实例裸奔于公网

OpenClaw 的走红引发了企业安全界的集体警报。Meta 一位高管近日告知团队,在工作电脑上安装 OpenClaw 可能导致被解雇;创业公司 Massive CEO 在 Slack 发出红色警报要求全员远离;为约翰斯·霍普金斯大学开发软件的 Valere 也在员工内部提及后立即禁用。SecurityScorecard 扫描发现超过 4 万个暴露的 OpenClaw 实例,63% 存在漏洞,近 1.3 万个可通过远程代码执行利用。

核心风险在于其不可预测性。OpenClaw 拥有系统级权限,能自主操作文件、浏览网页、处理邮件,但也意味着一封恶意邮件就可能指令 AI 泄露用户文件。Valere 研究团队在隔离环境测试后的结论是,用户必须「接受这个工具可以被欺骗」。讽刺的是,OpenClaw 创始人 Peter Steinberger 上周刚加入 OpenAI 负责个人智能体开发,而他创造的工具正被企业视为需要优先隔离的安全隐患。智能体时代的核心矛盾已经浮出水面:能力越强,攻击面越大。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐