DeepSeek 现“极”字 Bug，谷歌 Nano Banana 正式发布，Claude for Chrome 限量测试！| AI Weekly 8.25-8.31

木易AI信息差

921人浏览 · 2025-08-31 06:00:00

木易AI信息差 · 2025-08-31 06:00:00 发布

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🐛 DeepSeek V3.1 现“极”字 Bug ：DeepSeek V3.1 被发现随机插入“极”字，影响代码生成，官方承诺尽快修复，开发者需谨慎检查生成代码。

2️⃣ 📊 阿里发布数据分析 Agent ：瓴羊推出“超级数据分析师”，集成问数、解读、报告三大 Agent，20 分钟自动生成专业报告，分析效率提升 90%。

3️⃣ 🎤 OpenAI 发布 Realtime API ：推出 gpt-realtime 语音模型，支持图像输入和电话呼叫，在 MultiChallenge 音频基准测试中达 30.5% 分数，大幅减少延迟。

4️⃣ 🎨 谷歌 Gemini 2.5 Flash Image 升级 ：Gemini 2.5 Flash Image 在 LMArena 排名第一，支持多图融合、角色一致性保持和精确局部编辑，每张图仅需 0.039 美元。

5️⃣ 🌐 Claude for Chrome 限量测试 ：Anthropic 向 1000 名 Max 用户开放浏览器扩展测试，AI 可自主操控浏览器执行任务，提示注入攻击成功率降至 11.2%。

6️⃣ 🔒 Anthropic 更新隐私政策 ：用户聊天记录将默认用于 AI 训练，数据保留期从 30 天延长至 5 年，需主动退出才能避免数据被使用。

7️⃣ ⚡ xAI 推出 Grok Code Fast 1 ：grok-code-fast-1 处理速度达每秒 92 个 tokens，支持 256K 上下文窗口，SWE-Bench-Verified 测试成绩 70.8%，限时免费开放。

8️⃣ 📂 马斯克开源 Grok 2.5 ：xAI 将 Grok 2.5 模型权重发布至 Hugging Face，Grok 3 预计 6 个月后开源，需 8 个 GPU 才能托管。

9️⃣ 🛠️ 苹果 Xcode 集成 GPT-5 和 Claude 4 ：Xcode 26 Beta 7 新增 GPT-5、GPT-4.1 和 Claude 4 Sonnet 支持，提供原生集成和模块化实现。

🔟 🤖 微软推出自研 AI 模型 ：发布 MAI-Voice-1 语音模型和 MAI-1-preview 文本模型，前者单 GPU 不到 1 秒生成 1 分钟音频，后者仅用 15,000 个 GPU 训练。

01｜DeepSeek V3.1 惊现“极”字 Bug，官方承诺尽快修复

近期，DeepSeek V3.1 在多个开发平台上被发现存在令人困扰的 Bug：在 API 调用过程中，模型输出结果中会随机插入“极”字或其变体（如“極”或“extreme”）。这一问题最早在火山引擎、Chutes 等平台出现，随后蔓延至腾讯的 CodeBuddy 等更多平台，甚至影响了 DeepSeek 官方服务。

具体表现为，模型会在本不应出现的位置插入“极”字。例如，time.Second 可能被错误输出为 time.Se极，版本号 V1 则可能变为 V极。据 Reddit 用户反馈，即使在贪婪解码模式下，这些异常 token 仍然会优先输出，并频繁出现在其他意外位置，成为第二或第三选择。此类问题在编程场景中尤为致命，若开发者未仔细检查生成的代码，可能会导致编译失败。

关于这一 bug 的成因，有网友推测，可能与大模型编程中的“恶性模式”有关。推测是在 SFT 数据合成或构建预训练数据时，未彻底清洗数据，导致“极长的数组”等异常数据被引入。此后，模型可能将“极”字当作某种特殊符号或语言切换标记使用。如果 R1 版本的数据清洗不彻底，模型在蒸馏过程中“污染”正常输出，类似问题便可能发生。

目前，一些开发者已提出临时解决方案——通过调整提示词来缓解这一问题，尤其是在第三方平台调用 API 时。腾讯 CodeBuddy 表示，已与 DeepSeek 团队取得联系，并承诺将在未来版本中修复该问题。被网友戏称为“极你太美”的 Bug，再次提醒我们，大模型的工程稳定性仍需进一步提升，AI 系统在部署时的稳定性和可预测性应获得更多关注。

02｜阿里发布首个数据分析 Agent，助力企业决策提速

8 月 28 日，阿里巴巴旗下的瓴羊正式发布了首个数据分析 Agent，将 Quick BI 中的“智能小 Q”升级为由“问数”、“解读”和“报告”三大核心 Agent 组成的“超级数据分析师”。该系统能够快速获取数据、深入解读并生成洞察报告，极大提升企业决策效率。

三大核心 Agent 各具特色：问数 Agent 通过自然语言指令完成数据提取与分析，并实时生成图表；解读 Agent 精准解析数据并提供自定义总结，帮助用户得出更具深度的结论；报告 Agent 可在 20 分钟内根据指令自动生成完整的专业报告，涵盖从数据统计分析到深度洞察的全过程，并支持个性化编辑。

这一系统的应用大大提高了数据分析效率。例如，在销售管理场景中，传统方式下两名分析师需要 4 小时才能处理 20% 的核心经营数据，而通过报告 Agent，系统能够在 1 小时内扫描全量数据，快速输出经营问题、机会、风险及建议，分析效率提升了 90%。瓴羊表示，这一突破得益于阿里巴巴在业务经验、数据资产与技术能力上的深厚积累，融合了领域增强大模型、语言模型、向量数据库和规则引擎等先进技术，帮助每一位员工都能轻松成为数据分析师。

03｜OpenAI 发布 Realtime API 和 gpt-realtime 语音模型

8 月 29 日，OpenAI 宣布 Realtime API 正式全面可用（GA），并推出迄今为止最先进的语音对话模型 gpt-realtime。新版本 API 现在支持远程 MCP 服务器、图像输入和通过 SIP 协议进行电话呼叫，使语音助手能够通过访问更多工具和上下文实现更强大功能。

gpt-realtime 在遵循复杂指令、精确调用工具以及生成自然富有表现力的语音方面表现出显著提升。该模型能够捕捉非语言线索（如笑声），无缝切换语言，并根据需求调整语调（如“简洁专业”或“富有同理心的法语口音”）。此外，OpenAI 还推出了两个新的语音选项 Cedar 和 Marin，专门为 Realtime API 提供。

在性能上，gpt-realtime 在 MultiChallenge 音频基准测试中取得了 30.5% 的分数，较 2024 年 12 月版本的 20.6% 有显著提升。与传统需要串联多个模型的语音转文本和文本转语音管道不同，Realtime API 通过单一模型和 API 直接处理和生成音频，大大减少了延迟，保留语音中的细微差别，生成更自然、更富表现力的响应。

技术方面，Realtime API 通过创建持久 WebSocket 连接与 GPT-4o 交换消息，支持函数调用功能，使语音助手能够通过触发操作或引入新上下文来响应用户请求。例如，语音助手可以代表用户下订单或检索客户信息，以个性化响应。Zillow AI 负责人 Josh Weisberg 表示，他们在早期访问新版 Realtime API 后，发现新模型展现出更强的推理能力和自然的语音处理，能够处理复杂的多步骤请求，让在 Zillow 上搜索房屋或探索融资选项就像与朋友对话一样自然。

04｜谷歌 Gemini 2.5 Flash Image 重磅升级，AI 修图能力全面提升

谷歌正式推出 Gemini 2.5 Flash Image（代号 nano-banana），这是其最先进的图像生成和编辑模型。现已通过 Gemini API、Google AI Studio 和 Vertex AI 向开发者开放，定价为每百万输出 token 30 美元，每张图像约使用 1290 个 token（约 0.039 美元）。在 LMArena 平台的盲测中，该模型被评为全球排名第一的图像编辑模型。

新模型的核心功能包括：多图像融合，能够无缝合成多张图片生成单一视觉效果；角色一致性保持，在不同环境、姿势和光照条件下，能够保持同一人物或物体的外观特征；精确的局部编辑，支持通过自然语言指令进行定向调整，如模糊背景、去除污渍、删除人物、改变姿势或为黑白照片上色等；对话式编辑功能，用户可以通过多轮对话逐步完善图像。

在性能对比方面，谷歌表示 Gemini 2.5 Flash 在图像编辑的表现上，常常优于 ChatGPT 使用的 GPT-4o 模型。该模型在多个任务中超越了之前的版本，尤其在角色一致性方面表现突出。即使在姿势、背景或光照发生变化时，模型仍能保持人物、动物或物体的视觉一致性，为创建图像系列或多角度产品拍摄提供了新的可能性。

与传统图像生成模型不同，Gemini 2.5 Flash Image 深度结合了 Gemini 的世界知识，使模型不仅能够生成美观的图像，还具备对现实世界的深度语义理解。谷歌在 Google AI Studio 中展示了该模型如何读取和理解手绘图表、帮助解决实际问题，并执行复杂的编辑指令。此外，所有通过该模型创建或编辑的图像都带有不可见的 SynthID 数字水印，以标识为 AI 生成或编辑的内容。

05｜Claude for Chrome 开启限量测试，AI 可自主操控浏览器

8 月 27 日，Anthropic 推出了 Claude for Chrome 扩展程序的限量测试版，允许受信任的用户指示 Claude 在浏览器中代表他们执行操作。目前，该试点仅向 1,000 名 Max 计划订阅用户（每月 100-200 美元）开放，用户可以加入等候名单申请参与。

作为一款 AI 智能体，Claude for Chrome 可以在 Chrome 侧边栏与用户聊天，根据需求执行浏览器操作。该扩展能跟踪用户打开的标签页，分析和理解提示的上下文，并执行相应操作。例如，它可以查看过去一个月的邮件，识别需要跟进的未回复邮件并自动撰写跟进内容；在 Zillow 等房地产网站上搜索符合条件的房源；寻找餐厅并将菜品添加到购物车等。

在安全性方面，Anthropic 进行了大量测试，发现提示注入攻击是主要风险。在未进行防护措施的情况下，恶意攻击的成功率为 23.6%。经过新防御措施后，整体成功率降至 11.2%，针对特定浏览器攻击（如隐藏的恶意表单字段）成功率已降至 0%。为提升安全性，Anthropic 实施了多层权限系统，并提醒用户避免在涉及财务、法律、医疗等敏感信息的站点使用该扩展。

根据内部测试反馈，Claude for Chrome 在管理日历、安排会议、起草邮件回复和处理日常费用报告等任务上表现出显著提升。随着测试的推进和安全性增强，Anthropic 将逐步扩大该扩展的访问范围。

06｜Anthropic 更新隐私政策：用户聊天记录将默认用于 AI 训练

Anthropic 宣布对其数据政策进行重大调整，要求所有 Claude Free、Pro 和 Max 用户在 9 月 28 日前决定是否同意将其对话内容用于训练 AI 模型。这一变化标志着公司数据策略的重大转变 —— 此前，Anthropic 明确表示不会使用消费者聊天数据进行模型训练，并会在 30 天内自动删除数据。

根据新政策，选择不退出的用户数据将被保留长达五年，远超此前的 30 天期限。需要注意的是，这一设置默认为“开启”状态，用户需主动在隐私设置中选择退出。该变更仅适用于新的或恢复的聊天和编程会话，过去的对话记录不受影响。企业客户（如 Claude for Work、Claude Gov、Claude for Education 及 API 用户）则不受此次政策调整的影响。

业内分析认为，这一举措反映了 AI 公司对高质量训练数据的迫切需求。与其他大语言模型公司一样，Anthropic 需要大量真实对话数据来提升其在与 OpenAI、Google 等竞争对手较量中的地位。Anthropic 强调，所有数据将经过去标识化处理，自动解除与用户 ID（如邮箱地址）的关联，并使用工具和流程过滤或模糊敏感信息。此外，数据将不会用于联系用户、建立个人档案或进行营销活动。

07｜xAI 推出高速编程模型 Grok Code Fast 1，限时免费开放

8 月 27 日，xAI 正式推出 grok-code-fast-1，一款专为智能体编程工作流设计的高速、经济型推理模型。该模型现已通过 GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode 和 Windsurf 等合作伙伴限时免费开放。

Grok Code Fast 1 的处理速度高达每秒 92 个 tokens，支持 256K token 上下文窗口，特别适合快速原型开发和基础编程任务。xAI 从零开始构建该模型，采用全新架构设计，并在预训练阶段精心组织了包含编程相关内容的语料库。在与合作伙伴的紧密协作下，模型在缓存优化方面表现出色，缓存命中率常超过 90%。该模型在 TypeScript、Python、Java、Rust、C++ 和 Go 等编程语言上表现优异，并在 SWE-Bench-Verified 基准测试中获得 70.8% 的成绩。

在定价方面，限时免费期结束后，Grok Code Fast 1 的定价为每百万输入 tokens 0.20 美元，每百万输出 tokens 1.50 美元，缓存 tokens 仅需 0.02 美元。这个价格使其成为竞争对手的经济型替代方案。用户反馈称，该模型响应速度极快，尤其在处理小型、专注任务时表现出色，能够快速迭代并精确执行指令，显著提升日常编程工作的效率。

08｜马斯克宣布 xAI 开源 Grok 2.5 模型，Grok 3 六个月后跟进

8 月 23 日，埃隆·马斯克在 X 平台上宣布，xAI 已将 Grok 2.5 模型开源。他表示：“@xAI 的 Grok 2.5 模型是我们去年的最佳模型，现已开源。Grok 3 将在大约 6 个月后开源。”模型权重现已发布在开源平台 Hugging Face 上，供开发者和研究人员下载、运行和修改。

需要注意的是，这次发布的是开放权重（open-weights），而非OSI意义上的完全开源。发布内容包括检查点和推理说明，但不包括完整的训练数据或端到端流程。AI 工程师 Tim Kellogg 将 Grok 许可证描述为“带有一些反竞争条款的定制许可”，指出该许可证限制用户使用 Grok 来训练、创建或改进其他 AI 模型。硬件要求方面，文档显示需要 8 个 GPU，每个 GPU 至少 40GB 内存才能托管该检查点。

虽然 Grok 2.5 是一个较旧的模型 —— 已被 2025 年 7 月推出的 Grok 4 和 Grok 4 Heavy 超越 —— 但它相比之前开源的 Grok 1 仍有显著改进。马斯克表示，按照当前的时间表，Grok 3 预计将在 2026 年 2 月发布。他还提到，Grok 5 预计将在 2025 年底推出，可能会在 2026 年底或 2027 年初开源。

09｜苹果发布 Xcode 26 Beta 7，新增 GPT-5 和 Claude 4 集成支持

苹果发布了 Xcode 26 Beta 7，为开发者带来了增强的 AI 编程工具。此次更新扩展了对第三方人工智能解决方案的集成，开发者现在可以在 Intelligence 设置面板中关联付费的 Claude 账户，直接在 Xcode 中使用 Claude 4 Sonnet。同时，ChatGPT 集成也得到了更新：用户现在可以选择使用 GPT-4.1 或 GPT-5 开始新对话，其中 GPT-5 被自动设置为默认选项。

此次更新延续了苹果在 WWDC 2025 上发布的 Xcode 26 重大升级。在 WWDC 上，苹果首次引入了 OpenAI 的 ChatGPT，用于编码、文档生成等功能，并宣布开发者可以通过 API 密钥引入其他提供商的 AI 模型。开发者可以在 Xcode 中直接连接 AI 模型来编写代码、测试和文档，进行迭代设计、修复错误等任务。

Xcode 为编码任务提供了两个特定的 ChatGPT 模型选项。GPT-5 专为常规请求设计，提供快速、高质量的响应，适合大多数开发工作流程；而对于需要更深入分析的任务，GPT-5 Reasoning 通过投入更多时间来提供更准确的答案。值得注意的是，尽管开发者此前已能通过 API 接入 Claude，但苹果现已为 Claude 提供与 ChatGPT 同等级别的原生 Xcode 集成。这种模型无关、可定制、模块化的实现方式，使 Xcode 在多模型支持的背景下更具吸引力。

10｜微软推出首批自研 AI 模型，强化 Copilot 生态独立性

微软 AI（MAI）团队正式推出两款自研模型：MAI-Voice-1 语音生成模型和 MAI-1-preview 文本模型。其中，MAI-Voice-1 能够在单个 GPU 上不到一秒内生成一分钟的音频，成为当今最高效的语音系统之一。该模型已为 Copilot Daily 和 Podcasts 功能提供支持，用户现在可以通过 Copilot Labs 体验其表现力丰富的语音和讲故事功能。

MAI-1-preview 是微软首个完全自主从头到尾训练的基础模型，采用混合专家（MoE）架构，在约 15,000 个 NVIDIA H100 GPU 上完成预训练和后训练。该模型专门针对指令遵循和日常查询响应进行了优化，预计将在未来几周内逐步应用于 Copilot 的特定文本用例中。微软 AI 首席执行官 Mustafa Suleyman 在 X 平台上表示，团队对未来发展充满宏大愿景，涵盖模型进步、计算路线图及通过微软产品触达数十亿用户的机会。

这两款模型强调成本效益。与 xAI 的 Grok 使用超过 10 万个芯片训练不同，MAI-1-preview 仅使用了约 15,000 个 GPU，展现了“以小博大”的能力。Suleyman 表示，团队运用了包括开源社区在内的多种技术，以最少的资源最大化模型能力。微软强调，这并不意味着要取代 OpenAI 的模型，而是计划综合使用来自自研团队、合作伙伴以及开源社区的最佳模型，推动产品发展。同时，微软的下一代 GB200 集群已经投入运行，为未来的模型开发提供强大的计算基础设施支持。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

精选推荐

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

本月最新AI翻译神器：Chrome内置离线划词翻译工具解锁版

2048 AI社区

金融AI预测系统模型压缩架构：架构师的3个技巧减小模型体积

金融AI的本质是“用数据预测未来”——比如预测股票涨跌、识别欺诈交易、评估信用风险。为了提高预测精度，工程师们通常会用更深的神经网络（如Transformer、LSTM），但这些模型就像“装满书的背包”：体积大（几十甚至几百MB）、加载慢（延迟高）、消耗多（占内存/算力）。本文的目的是解决“大模型部署难”的问题，范围覆盖金融AI预测系统的模型压缩架构设计，重点讲解3个可落地的技巧：剪枝、量化、知识

2048 AI社区

基于多模态大模型的生产线工人连贯性动作理解

本方案旨在构建一个基于多模态大模型的智能视觉系统，用于理解和监控产线工人的连贯性动作序列。取用正确的物料将物料安装到正确位置完成正确的安装动作本方案提供了一个完整的基于多模态大模型的产线工人动作理解系统设计，涵盖了从算法选型、系统架构、硬件配置到部署优化的全流程。通过采用最新的视觉-语言预训练模型、高效的推理优化技术和合理的硬件配置，系统能够实现高精度、低延迟的连贯性动作理解，为智能制造提供强有力