📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🐛 DeepSeek V3.1 现“极”字 BugDeepSeek V3.1 被发现随机插入“极”字,影响代码生成,官方承诺尽快修复,开发者需谨慎检查生成代码。

2️⃣ 📊 阿里发布数据分析 Agent :瓴羊推出“超级数据分析师”,集成问数、解读、报告三大 Agent,20 分钟自动生成专业报告,分析效率提升 90%。

3️⃣ 🎤 OpenAI 发布 Realtime API :推出 gpt-realtime 语音模型,支持图像输入和电话呼叫,在 MultiChallenge 音频基准测试中达 30.5% 分数,大幅减少延迟。

4️⃣ 🎨 谷歌 Gemini 2.5 Flash Image 升级Gemini 2.5 Flash Image 在 LMArena 排名第一,支持多图融合、角色一致性保持和精确局部编辑,每张图仅需 0.039 美元。

5️⃣ 🌐 Claude for Chrome 限量测试 :Anthropic 向 1000 名 Max 用户开放浏览器扩展测试,AI 可自主操控浏览器执行任务,提示注入攻击成功率降至 11.2%。

6️⃣ 🔒 Anthropic 更新隐私政策 :用户聊天记录将默认用于 AI 训练,数据保留期从 30 天延长至 5 年,需主动退出才能避免数据被使用。

7️⃣ ⚡ xAI 推出 Grok Code Fast 1grok-code-fast-1 处理速度达每秒 92 个 tokens,支持 256K 上下文窗口,SWE-Bench-Verified 测试成绩 70.8%,限时免费开放。

8️⃣ 📂 马斯克开源 Grok 2.5 :xAI 将 Grok 2.5 模型权重发布至 Hugging Face,Grok 3 预计 6 个月后开源,需 8 个 GPU 才能托管。

9️⃣ 🛠️ 苹果 Xcode 集成 GPT-5 和 Claude 4 :Xcode 26 Beta 7 新增 GPT-5GPT-4.1Claude 4 Sonnet 支持,提供原生集成和模块化实现。

🔟 🤖 微软推出自研 AI 模型 :发布 MAI-Voice-1 语音模型和 MAI-1-preview 文本模型,前者单 GPU 不到 1 秒生成 1 分钟音频,后者仅用 15,000 个 GPU 训练。


01|DeepSeek V3.1 惊现“极”字 Bug,官方承诺尽快修复

近期,DeepSeek V3.1 在多个开发平台上被发现存在令人困扰的 Bug:在 API 调用过程中,模型输出结果中会随机插入“极”字或其变体(如“極”或“extreme”)。这一问题最早在火山引擎、Chutes 等平台出现,随后蔓延至腾讯的 CodeBuddy 等更多平台,甚至影响了 DeepSeek 官方服务。

具体表现为,模型会在本不应出现的位置插入“极”字。例如,time.Second 可能被错误输出为 time.Se极,版本号 V1 则可能变为 V极。据 Reddit 用户反馈,即使在贪婪解码模式下,这些异常 token 仍然会优先输出,并频繁出现在其他意外位置,成为第二或第三选择。此类问题在编程场景中尤为致命,若开发者未仔细检查生成的代码,可能会导致编译失败。

关于这一 bug 的成因,有网友推测,可能与大模型编程中的“恶性模式”有关。推测是在 SFT 数据合成或构建预训练数据时,未彻底清洗数据,导致“极长的数组”等异常数据被引入。此后,模型可能将“极”字当作某种特殊符号或语言切换标记使用。如果 R1 版本的数据清洗不彻底,模型在蒸馏过程中“污染”正常输出,类似问题便可能发生。

目前,一些开发者已提出临时解决方案——通过调整提示词来缓解这一问题,尤其是在第三方平台调用 API 时。腾讯 CodeBuddy 表示,已与 DeepSeek 团队取得联系,并承诺将在未来版本中修复该问题。被网友戏称为“极你太美”的 Bug,再次提醒我们,大模型的工程稳定性仍需进一步提升,AI 系统在部署时的稳定性和可预测性应获得更多关注。


02|阿里发布首个数据分析 Agent,助力企业决策提速

8 月 28 日,阿里巴巴旗下的瓴羊正式发布了首个数据分析 Agent,将 Quick BI 中的“智能小 Q”升级为由“问数”、“解读”和“报告”三大核心 Agent 组成的“超级数据分析师”。该系统能够快速获取数据、深入解读并生成洞察报告,极大提升企业决策效率。

三大核心 Agent 各具特色:问数 Agent 通过自然语言指令完成数据提取与分析,并实时生成图表;解读 Agent 精准解析数据并提供自定义总结,帮助用户得出更具深度的结论;报告 Agent 可在 20 分钟内根据指令自动生成完整的专业报告,涵盖从数据统计分析到深度洞察的全过程,并支持个性化编辑。

这一系统的应用大大提高了数据分析效率。例如,在销售管理场景中,传统方式下两名分析师需要 4 小时才能处理 20% 的核心经营数据,而通过报告 Agent,系统能够在 1 小时内扫描全量数据,快速输出经营问题、机会、风险及建议,分析效率提升了 90%。瓴羊表示,这一突破得益于阿里巴巴在业务经验、数据资产与技术能力上的深厚积累,融合了领域增强大模型、语言模型、向量数据库和规则引擎等先进技术,帮助每一位员工都能轻松成为数据分析师。


03|OpenAI 发布 Realtime API 和 gpt-realtime 语音模型

8 月 29 日,OpenAI 宣布 Realtime API 正式全面可用(GA),并推出迄今为止最先进的语音对话模型 gpt-realtime。新版本 API 现在支持远程 MCP 服务器、图像输入和通过 SIP 协议进行电话呼叫,使语音助手能够通过访问更多工具和上下文实现更强大功能。

gpt-realtime 在遵循复杂指令、精确调用工具以及生成自然富有表现力的语音方面表现出显著提升。该模型能够捕捉非语言线索(如笑声),无缝切换语言,并根据需求调整语调(如“简洁专业”或“富有同理心的法语口音”)。此外,OpenAI 还推出了两个新的语音选项 Cedar 和 Marin,专门为 Realtime API 提供。

在性能上,gpt-realtime 在 MultiChallenge 音频基准测试中取得了 30.5% 的分数,较 2024 年 12 月版本的 20.6% 有显著提升。与传统需要串联多个模型的语音转文本和文本转语音管道不同,Realtime API 通过单一模型和 API 直接处理和生成音频,大大减少了延迟,保留语音中的细微差别,生成更自然、更富表现力的响应。

技术方面,Realtime API 通过创建持久 WebSocket 连接与 GPT-4o 交换消息,支持函数调用功能,使语音助手能够通过触发操作或引入新上下文来响应用户请求。例如,语音助手可以代表用户下订单或检索客户信息,以个性化响应。Zillow AI 负责人 Josh Weisberg 表示,他们在早期访问新版 Realtime API 后,发现新模型展现出更强的推理能力和自然的语音处理,能够处理复杂的多步骤请求,让在 Zillow 上搜索房屋或探索融资选项就像与朋友对话一样自然。


04|谷歌 Gemini 2.5 Flash Image 重磅升级,AI 修图能力全面提升

谷歌正式推出 Gemini 2.5 Flash Image(代号 nano-banana),这是其最先进的图像生成和编辑模型。现已通过 Gemini API、Google AI Studio 和 Vertex AI 向开发者开放,定价为每百万输出 token 30 美元,每张图像约使用 1290 个 token(约 0.039 美元)。在 LMArena 平台的盲测中,该模型被评为全球排名第一的图像编辑模型。

新模型的核心功能包括:多图像融合,能够无缝合成多张图片生成单一视觉效果;角色一致性保持,在不同环境、姿势和光照条件下,能够保持同一人物或物体的外观特征;精确的局部编辑,支持通过自然语言指令进行定向调整,如模糊背景、去除污渍、删除人物、改变姿势或为黑白照片上色等;对话式编辑功能,用户可以通过多轮对话逐步完善图像。

在性能对比方面,谷歌表示 Gemini 2.5 Flash 在图像编辑的表现上,常常优于 ChatGPT 使用的 GPT-4o 模型。该模型在多个任务中超越了之前的版本,尤其在角色一致性方面表现突出。即使在姿势、背景或光照发生变化时,模型仍能保持人物、动物或物体的视觉一致性,为创建图像系列或多角度产品拍摄提供了新的可能性。

与传统图像生成模型不同,Gemini 2.5 Flash Image 深度结合了 Gemini 的世界知识,使模型不仅能够生成美观的图像,还具备对现实世界的深度语义理解。谷歌在 Google AI Studio 中展示了该模型如何读取和理解手绘图表、帮助解决实际问题,并执行复杂的编辑指令。此外,所有通过该模型创建或编辑的图像都带有不可见的 SynthID 数字水印,以标识为 AI 生成或编辑的内容。


05|Claude for Chrome 开启限量测试,AI 可自主操控浏览器

8 月 27 日,Anthropic 推出了 Claude for Chrome 扩展程序的限量测试版,允许受信任的用户指示 Claude 在浏览器中代表他们执行操作。目前,该试点仅向 1,000 名 Max 计划订阅用户(每月 100-200 美元)开放,用户可以加入等候名单申请参与。

作为一款 AI 智能体,Claude for Chrome 可以在 Chrome 侧边栏与用户聊天,根据需求执行浏览器操作。该扩展能跟踪用户打开的标签页,分析和理解提示的上下文,并执行相应操作。例如,它可以查看过去一个月的邮件,识别需要跟进的未回复邮件并自动撰写跟进内容;在 Zillow 等房地产网站上搜索符合条件的房源;寻找餐厅并将菜品添加到购物车等。

在安全性方面,Anthropic 进行了大量测试,发现提示注入攻击是主要风险。在未进行防护措施的情况下,恶意攻击的成功率为 23.6%。经过新防御措施后,整体成功率降至 11.2%,针对特定浏览器攻击(如隐藏的恶意表单字段)成功率已降至 0%。为提升安全性,Anthropic 实施了多层权限系统,并提醒用户避免在涉及财务、法律、医疗等敏感信息的站点使用该扩展。

根据内部测试反馈,Claude for Chrome 在管理日历、安排会议、起草邮件回复和处理日常费用报告等任务上表现出显著提升。随着测试的推进和安全性增强,Anthropic 将逐步扩大该扩展的访问范围。


06|Anthropic 更新隐私政策:用户聊天记录将默认用于 AI 训练

Anthropic 宣布对其数据政策进行重大调整,要求所有 Claude Free、Pro 和 Max 用户在 9 月 28 日前决定是否同意将其对话内容用于训练 AI 模型。这一变化标志着公司数据策略的重大转变 —— 此前,Anthropic 明确表示不会使用消费者聊天数据进行模型训练,并会在 30 天内自动删除数据。

根据新政策,选择不退出的用户数据将被保留长达五年,远超此前的 30 天期限。需要注意的是,这一设置默认为“开启”状态,用户需主动在隐私设置中选择退出。该变更仅适用于新的或恢复的聊天和编程会话,过去的对话记录不受影响。企业客户(如 Claude for Work、Claude Gov、Claude for Education 及 API 用户)则不受此次政策调整的影响。

业内分析认为,这一举措反映了 AI 公司对高质量训练数据的迫切需求。与其他大语言模型公司一样,Anthropic 需要大量真实对话数据来提升其在与 OpenAI、Google 等竞争对手较量中的地位。Anthropic 强调,所有数据将经过去标识化处理,自动解除与用户 ID(如邮箱地址)的关联,并使用工具和流程过滤或模糊敏感信息。此外,数据将不会用于联系用户、建立个人档案或进行营销活动。


07|xAI 推出高速编程模型 Grok Code Fast 1,限时免费开放

8 月 27 日,xAI 正式推出 grok-code-fast-1,一款专为智能体编程工作流设计的高速、经济型推理模型。该模型现已通过 GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode 和 Windsurf 等合作伙伴限时免费开放。

Grok Code Fast 1 的处理速度高达每秒 92 个 tokens,支持 256K token 上下文窗口,特别适合快速原型开发和基础编程任务。xAI 从零开始构建该模型,采用全新架构设计,并在预训练阶段精心组织了包含编程相关内容的语料库。在与合作伙伴的紧密协作下,模型在缓存优化方面表现出色,缓存命中率常超过 90%。该模型在 TypeScript、Python、Java、Rust、C++ 和 Go 等编程语言上表现优异,并在 SWE-Bench-Verified 基准测试中获得 70.8% 的成绩。

在定价方面,限时免费期结束后,Grok Code Fast 1 的定价为每百万输入 tokens 0.20 美元,每百万输出 tokens 1.50 美元,缓存 tokens 仅需 0.02 美元。这个价格使其成为竞争对手的经济型替代方案。用户反馈称,该模型响应速度极快,尤其在处理小型、专注任务时表现出色,能够快速迭代并精确执行指令,显著提升日常编程工作的效率。


08|马斯克宣布 xAI 开源 Grok 2.5 模型,Grok 3 六个月后跟进

8 月 23 日,埃隆·马斯克在 X 平台上宣布,xAI 已将 Grok 2.5 模型开源。他表示:“@xAI 的 Grok 2.5 模型是我们去年的最佳模型,现已开源。Grok 3 将在大约 6 个月后开源。”模型权重现已发布在开源平台 Hugging Face 上,供开发者和研究人员下载、运行和修改。

需要注意的是,这次发布的是开放权重(open-weights),而非OSI意义上的完全开源。发布内容包括检查点和推理说明,但不包括完整的训练数据或端到端流程。AI 工程师 Tim Kellogg 将 Grok 许可证描述为“带有一些反竞争条款的定制许可”,指出该许可证限制用户使用 Grok 来训练、创建或改进其他 AI 模型。硬件要求方面,文档显示需要 8 个 GPU,每个 GPU 至少 40GB 内存才能托管该检查点。

虽然 Grok 2.5 是一个较旧的模型 —— 已被 2025 年 7 月推出的 Grok 4Grok 4 Heavy 超越 —— 但它相比之前开源的 Grok 1 仍有显著改进。马斯克表示,按照当前的时间表,Grok 3 预计将在 2026 年 2 月发布。他还提到,Grok 5 预计将在 2025 年底推出,可能会在 2026 年底或 2027 年初开源。


09|苹果发布 Xcode 26 Beta 7,新增 GPT-5 和 Claude 4 集成支持

苹果发布了 Xcode 26 Beta 7,为开发者带来了增强的 AI 编程工具。此次更新扩展了对第三方人工智能解决方案的集成,开发者现在可以在 Intelligence 设置面板中关联付费的 Claude 账户,直接在 Xcode 中使用 Claude 4 Sonnet。同时,ChatGPT 集成也得到了更新:用户现在可以选择使用 GPT-4.1GPT-5 开始新对话,其中 GPT-5 被自动设置为默认选项。

此次更新延续了苹果在 WWDC 2025 上发布的 Xcode 26 重大升级。在 WWDC 上,苹果首次引入了 OpenAI 的 ChatGPT,用于编码、文档生成等功能,并宣布开发者可以通过 API 密钥引入其他提供商的 AI 模型。开发者可以在 Xcode 中直接连接 AI 模型来编写代码、测试和文档,进行迭代设计、修复错误等任务。

Xcode 为编码任务提供了两个特定的 ChatGPT 模型选项。GPT-5 专为常规请求设计,提供快速、高质量的响应,适合大多数开发工作流程;而对于需要更深入分析的任务,GPT-5 Reasoning 通过投入更多时间来提供更准确的答案。值得注意的是,尽管开发者此前已能通过 API 接入 Claude,但苹果现已为 Claude 提供与 ChatGPT 同等级别的原生 Xcode 集成。这种模型无关、可定制、模块化的实现方式,使 Xcode 在多模型支持的背景下更具吸引力。


10|微软推出首批自研 AI 模型,强化 Copilot 生态独立性

微软 AI(MAI)团队正式推出两款自研模型:MAI-Voice-1 语音生成模型和 MAI-1-preview 文本模型。其中,MAI-Voice-1 能够在单个 GPU 上不到一秒内生成一分钟的音频,成为当今最高效的语音系统之一。该模型已为 Copilot Daily 和 Podcasts 功能提供支持,用户现在可以通过 Copilot Labs 体验其表现力丰富的语音和讲故事功能。

MAI-1-preview 是微软首个完全自主从头到尾训练的基础模型,采用混合专家(MoE)架构,在约 15,000 个 NVIDIA H100 GPU 上完成预训练和后训练。该模型专门针对指令遵循和日常查询响应进行了优化,预计将在未来几周内逐步应用于 Copilot 的特定文本用例中。微软 AI 首席执行官 Mustafa Suleyman 在 X 平台上表示,团队对未来发展充满宏大愿景,涵盖模型进步、计算路线图及通过微软产品触达数十亿用户的机会。

这两款模型强调成本效益。与 xAI 的 Grok 使用超过 10 万个芯片训练不同,MAI-1-preview 仅使用了约 15,000 个 GPU,展现了“以小博大”的能力。Suleyman 表示,团队运用了包括开源社区在内的多种技术,以最少的资源最大化模型能力。微软强调,这并不意味着要取代 OpenAI 的模型,而是计划综合使用来自自研团队、合作伙伴以及开源社区的最佳模型,推动产品发展。同时,微软的下一代 GB200 集群已经投入运行,为未来的模型开发提供强大的计算基础设施支持。


我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。


精选推荐

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐