MIAOYUN | 每周 AI 新鲜事儿（08.01-08.08）

本周AI领域动态频繁：谷歌发布Gemini 2.5 DeepThink模型，支持百万tokens超长上下文；小米开源声音理解大模型MiDashengLM-7B；腾讯、华为相继开源多款轻量化模型；OpenAI推出GPT-5旗舰模型，包含4个版本向各类用户开放。技术突破方面，360集团推出L4级多智能体蜂群系统，腾讯开源CognitiveKernel-Pro智能体框架。行业动态上，国家安全部警示AI数

秒云

893人浏览 · 2025-08-11 09:39:53

秒云 · 2025-08-11 09:39:53 发布

人工智能领域的发展态势迅猛，创新成果应接不暇，MIAOYUN「每周AI新鲜事儿」，精选全球AI最新动态，涵盖新模型发布、AI产品及工具、技术突破与行业趋势等，助力洞察行业机遇，一起来回顾本周发生的AI新鲜事儿吧！

AI 大模型

Google DeepMind推出「Gemini 2.5 Deep Think」模型

8月2日，Google正式向Google AI Ultra订阅用户开放「Gemini 2.5 Deep Think」模型。该模型通过“并行思维”技术实现多智能体推理，在IMO（国际数学奥林匹克竞赛）基准测试中达到铜牌水平，学术版曾斩获金牌。支持100万tokens超长上下文窗口，可处理长文档与视频等多模态信息并生成深度回答，在法律合同审查等场景中效率提升超 10 倍。

参考：谷歌IMO金牌模型可以用了！推理性能秒了o3、Grok 4

小米发布并开源声音理解大模型「MiDashengLM-7B」

8月4日，小米正式发布并全量开源声音理解大模型「MiDashengLM-7B」。该模型基于Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker自回归解码器，通过通用音频描述训练策略，实现语音、环境声、音乐的统一理解，声音理解性能在22个公开评测集上刷新多模态大模型最好成绩（SOTA），训练数据100%来自公开数据集，采用 Apache 2.0协议开源，同时支持学术和商业应用。

参考：小米开源声音理解大模型 MiDashengLM-7B

腾讯混元开源「0.5B、1.8B、4B、7B」四款轻量化AI模型

8月4日，腾讯混元正式开源四款小尺寸模型，参数分别为「0.5B、1.8B、4B、7B」，消费级显卡即可运行，适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景，且支持垂直领域低成本微调。模型采用融合推理架构，支持“快思考”高效输出与“慢思考”复杂推理，原生支持256K超长上下文，在语言理解、数学推理等领域测试得分领先。目前已在腾讯会议AI助手、微信读书、智能座舱等场景落地，同时兼容ARM、高通等芯片平台及主流推理框架。

参考：继续开源：腾讯混元 0.5B、1.8B、4B、7B模型发布

华为全面开源「CANN」与「1B、7B、718B」三款盘古模型

8月5日，华为轮值董事长徐直军宣布「CANN」（神经网络计算架构）全面开源开放，同时开源Mind系列应用套件及工具链，并联合行业伙伴发起《CANN开源开放生态共建倡议》。「CANN」是华为针对AI场景开发的异构计算架构，可以提高华为昇腾AI芯片在处理AI任务时的效率。前一日，华为还开源了三款盘古模型，参数规模分别为「1B、7B、718B」。新开源模型采用多项创新技术如Multi-head Latent Attention和负载均衡策略，Ultra MoE具备快慢思考融合能力。

参考：华为开源7180亿参数大模型！

阿里通义千问开源全新文生图模型「Qwen-Image」

8月5日，阿里通义千问开源全新文生图模型「Qwen-Image」，这是通义千问系列中首个图像生成基础模型，具备20B参数，支持高保真文本渲染、风格一致的图像编辑，适用于海报设计、小幅面长文本生成等多种场景。该模型采用MMDiT架构和渐进式训练策略，在文本渲染和图像编辑多项基准测试中均达到SOTA水平。

参考：告别文字乱码！全新文生图模型Qwen-Image来咯

Google DeepMind发布新一代通用世界模型「Genie 3」

8月5日，Google DeepMind发布新一代通用世界模型「Genie 3」，能一句话生成动态可交互世界，以每秒20-24帧速度，实时生成720p画面，还能持续数分钟一致性。「Genie 3」首次实现实时交互功能，生成内容连贯性可维持数分钟，视觉记忆最远可追溯到一分钟前，模型能模拟物理世界、自然环境、创建动画奇幻世界及探索地点与历史场景，并支持通过文本指令改变天气、引入物体等“世界事件”，可作为AI智能体训练的复杂环境。

参考：谷歌深夜放出「创世引擎」Genie 3！一句话秒生宇宙，终极模拟器觉醒

Anthropic发布最强编程模型「Claude Opus 4.1」

8月6日，Anthropic正式发布「Claude Opus 4.1」，在编码基准测试SWE-bench Verified中准确率达74.5%，超越GPT-4.1（54.6%），成为当前最强编程模型。新版本支持32K上下文输出和7小时连续编程，能精准定位大型代码库错误，GitHub、Rakuten等企业实测效率显著提升。推理能力同步升级，TAU-bench任务准确率达80%，支持数小时自主研究与复杂工作流，模型价格保持不变。

参考：最强编程模型Claude Opus 4.1上线：小更新加量不加价，预告还有重磅消息

OpenAI开源两个新推理模型「GPT-OSS-120B」和「GPT-OSS-20B」

8月6日，OpenAI开源了两个新推理模型「GPT-OSS-120B」和「GPT-OSS-20B」，模型采用宽松的Apache 2.0许可证，性能接近闭源的「O4-Mini」。两款模型均使用交替密集和局部带状稀疏注意力模式，原生支持128K上下文长度。模型采用原生MXFP4精度训练，「GPT-OSS-120B」可在单个H100 GPU上运行，「GPT-OSS-20B」仅需16GB内存，适用于高端笔记本甚至手机。

参考：OpenAI重新开源！深夜连发两个推理模型，o4-mini水平，笔记本、手机可跑

面壁智能正式开源新一代多模态模型「MiniCPM-V 4.0」

8月6日，面壁智能发布并开源新一代多模态模型「MiniCPM-V 4.0」。依靠4B参数，取得在OpenCompass、OCRBench、MathVista等多个榜单上取得了同级SOTA成绩，且实现了在手机上稳定、丝滑运行。此外，还开源了推理部署工具「MiniCPM-V CookBook」，帮助开发者面向不同需求、不同场景、不同设备，均可实现开箱即用的轻量、简易部署。

参考：MiniCPM-V4.0开源，多模态能力进化，手机可用，还有最全CookBook！

小红书hi lab开源首款多模态大模型「dots.vlm1」

8月6日，小红书hi lab开源首款多模态大模型「dots.vlm1」，构建于一个从零训练的12亿参数视觉编码器「NaViT」和「Deepseek V3」大语言模型之上，在视觉的理解和推理任务上表现接近闭源领先模型，尤其在图文理解和推理方面，「dots.vlm1」能够解读复杂图表、理解表情包含义，并分析产品配料差异。

参考：小红书 hi lab 开源多模态大模型 dots.vlm1，效果接近闭源 SoTA 模型

阿里通义千问更新两款「Qwen3-4B」更小尺寸新模型

8月7日，阿里云通义千问团队更新了两款「Qwen3-4B」更小尺寸新模型，分别是「Qwen3-4B-Instruct-2507」和「Qwen3-4B-Thinking-2507」，推理能力和通用能力显著增强，超越部分大模型的新4B模型，上下文理解拓展至256K，支持更复杂的文档分析、长篇内容生成、跨段落推理等场景。

参考：Qwen3-4B超顶小模型更新登场！手机也能轻松跑！

MiniMax发布新一代语音生成模型「Speech 2.5」

8月7日，MiniMax发布新一代语音生成模型「Speech 2.5」，支持40种语言的真实语音生产，并显著提升了多语种表现、音色复刻的真实感与自然度。新模型不仅降低了机械感，提高了自然韵律，还支持不同地区口音复刻和特定年龄声线特点的保留。新增的小语种如保加利亚语、丹麦语、希伯来语等，为跨境电商和本地化营销提供了便利。

参考：全球第一再升级！MiniMax Speech 2.5上线：多语种表现力更强，音色复刻更“像”

OpenAI正式发布新一代旗舰模型「GPT-5」

8月8日，OpenAI正式发布新一代旗舰模型「GPT-5」，在编码、数学、写作、健康、视觉感知等场景能力显著提升，大幅减少幻觉，指令遵循能力更强，显著减少谄媚、讨好性回答。「GPT-5」被定位为“博士级专家”，集成深度推理与工具调用能力，在多项基准测试中表现领先。引入“安全生成”策略替代直接拒答，支持“氛围编程”（Vibe Coding），用户仅凭自然语言指令即可生成可运行应用。本次「GPT-5」共有4个版本，分为「GPT-5」、「GPT-5 mini」、「GPT-5 nano」及「GPT-5 Pro」，即日起向所有免费、Plus、Pro、Team用户开放。

参考：GPT-5来了！人人都能免费用，最强大模型只需最傻瓜式使用

AI 工具

Google开源结构化信息提取工具「LangExtract」

8月1日，Google正式开源高精度信息抽取工具「LangExtract」，本质是一个开源的Python库，旨在通过大语言模型（LLMs）从非结构化文本中提取结构化信息，并提供可视化来源定位。其核心突破在于 “精确源文本溯源”，可将提取的每个数据点映射回原文位置，并生成交互式HTML可视化报告，便于人工校验与审计。该工具支持少样本学习，用户仅需提供少量示例即可定义任务，无需模型微调，且兼容Gemini等云端模型及本地开源模型，适配不同算力环境。

参考：谷歌开源结构化信息提取神器！4K+ Star，精准定位+交互式可视化！

Google联合Kaggle推出全新LLM评估平台「Game Arena」，开启首届LLM对抗赛

8月2日，Google联合Kaggle推出了一个全新LLM评估平台「Game Arena」，该平台通过让LLM在战略游戏中直接对抗，提供一个客观、动态且可扩展的评估新范式。为庆祝平台上线，将举行首届LLM对抗赛，8款顶尖AI模型（Google，OpenAI，Anthropic，xAI，DeepSeek，Kimi）将在国际象棋领域一决高下，世界棋王马格努斯·卡尔森等人解说。比赛将采用单败淘汰制，模型不能使用外部工具，将通过纯文本方式推理下棋，比赛环境与框架全部开源。

参考：复刻AlphaGo时刻？谷歌推出LLM评估新范式Game Arena：八大模型参赛，棋王当裁判

Grok App推出AI短视频生成功能「Grok Imagine」

8月3日，马斯克旗下xAI推出的Grok App新增AI短视频生成「Grok Imagine」功能，已向所有Grok Heavy用户开放。该功能可一键生成高质量动画、写实风格短视频，生成速度极快；马斯克暗示这是AI版Vine，原版也即将回归。

参考：马斯克再放大招！Grok AI短视频爆火，一夜疯狂刷屏

智谱AI推出搭载「GLM-4.5」大模型的开发效率工具「Zread.ai」

8月5日，智谱AI正式推出搭载「GLM-4.5」大模型的开发效率工具「Zread.ai」，为开发者提供全流程代码解析解决方案。该工具通过输入GitHub仓库链接，可一键生成结构化文档、架构图及API说明，自动标注核心模块与代码逻辑，并支持多仓库对比分析和社区趋势追踪。

参考：智谱推出Zread搭载GLM-4.5，为开发者重构技术理解力

技术突破

360集团「纳米AI」升级为「多智能体蜂群」，智能体迈入L4 时代

8月1日，360集团宣布旗下「纳米AI」升级为「多智能体蜂群」，是全球首个真正迈入L4级别的智能体系统。「多智能体蜂群」（L4级）通过灵活组队、记忆共享和协同规划，可连续执行1000步复杂任务，任务成功率高达95.4%，单次任务消耗Token量达500万至3000万，能够实现智能体从“单兵作战”到“群体协同”的进化。用户输入一句话即可生成10分钟高质量AI视频，降低95%制作成本。

参考：全球首个！纳米AI多智能体蜂群上线

腾讯AI Lab开源GAIA同级最强Agent框架「Cognitive Kernel-Pro」，打破付费依赖

8月6日消息，腾讯AI Lab推出了开源框架「Cognitive Kernel-Pro」，一款全开源、多模块、层次化的智能体框架，打破现有开源工具对付费服务的依赖，为全球开发者提供了一套高效、灵活且可复现的智能体开发解决方案。在GAIA基准测试中，超越了同类开源对手，并提供完整的代码和数据支持。该框架采用分层模块化设计，包括主智能体和多个子智能体，能够高效处理复杂任务；在数据构建上创新地让AI自主生成问题，提升数据质量，同时采用自我反思和集体决策机制来提高智能体的可靠性和准确性。

参考：腾讯AI Lab开源可复现的深度研究智能体，最大限度降低外部依赖

AI 行业动态

国家安全部发布警示，警惕「AI助手」被「数据污染」

8月5日，国家安全部发布警示：AI训练数据中混入0.01%虚假文本，可使模型有害输出增加11.2%，即使0.001%污染也会导致7.2%增幅。实验表明，恶意数据通过篡改训练参数诱导模型生成攻击性内容、虚假信息，甚至形成“污染遗留效应”：AI 生成的虚假内容会成为新污染源，造成错误信息逐代累积。专家强调需建立数据分类分级保护制度，通过数据溯源、对抗性测试等技术手段构建防御体系。

参考：防它！别来污染我的“小助手”

NVIDIA发文称NVIDIA芯片不存在后门、终止开关和监控软件

8月6日，NVIDIA发布长文称NVIDIA芯片不存在后门、终止开关和监控软件。近期NVIDIA算力芯片被曝出存在严重安全问题。此前，美议员呼吁要求美出口的先进芯片必须配备“追踪定位”功能。美人工智能领域专家透露，英伟达算力芯片“追踪定位”“远程关闭”技术已成熟。为维护中国用户网络安全、数据安全，依据《网络安全法》《数据安全法》《个人信息保护法》有关规定，国家互联网信息办公室于2025年7月31日约谈了英伟达公司，要求英伟达公司就对华销售的H20算力芯片漏洞后门安全风险问题进行说明并提交相关证明材料。NVIDIA强调，NVIDIA GPU不存在也不应该设置终止开关和后门。

参考：NVIDIA 芯片不存在后门、终止开关和监控软件

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

[论文阅读]Benchmarking Poisoning Attacks against Retrieval-Augmented Generation

2048 AI社区

GPT-5攻克「量子NP难题」，首篇论文引爆学界！人类2周压缩至30分钟

GPT-5正改写科学发现的规则！一篇重磅论文揭秘，「量子版NP难题」竟被GPT-5在30分钟之内攻克了，然而这要耗费人类1-2周的时间。照这种速度发展下去，AI离完成「诺奖级」突破真的不远了。意想不到的是，这一次，GPT-5又「攻陷」了量子领域的难题。量子计算专家Scott Aaronson首次发表论文，证明其中一个老难题竟被GPT-5助攻破解了。论文中，Scott一直在死磕量子计算中的一个核心问