人工智能领域的发展态势迅猛,创新成果应接不暇,MIAOYUN「每周AI新鲜事儿」,精选全球AI最新动态,涵盖新模型发布、AI产品及工具、技术突破与行业趋势等,助力洞察行业机遇,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

Google DeepMind推出「Gemini 2.5 Deep Think」模型

8月2日,Google正式向Google AI Ultra订阅用户开放「Gemini 2.5 Deep Think」模型。该模型通过“并行思维”技术实现多智能体推理,在IMO(国际数学奥林匹克竞赛)基准测试中达到铜牌水平,学术版曾斩获金牌。支持100万tokens超长上下文窗口,可处理长文档与视频等多模态信息并生成深度回答,在法律合同审查等场景中效率提升超 10 倍。

参考:谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

小米发布并开源声音理解大模型「MiDashengLM-7B」

8月4日,小米正式发布并全量开源声音理解大模型「MiDashengLM-7B」。该模型基于Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker自回归解码器,通过通用音频描述训练策略,实现语音、环境声、音乐的统一理解,声音理解性能在22个公开评测集上刷新多模态大模型最好成绩(SOTA),训练数据100%来自公开数据集,采用 Apache 2.0协议开源,同时支持学术和商业应用。

参考:小米开源声音理解大模型 MiDashengLM-7B

腾讯混元开源「0.5B、1.8B、4B、7B」四款轻量化AI模型

8月4日,腾讯混元正式开源四款小尺寸模型,参数分别为「0.5B、1.8B、4B、7B」,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调。模型采用融合推理架构,支持“快思考”高效输出与“慢思考”复杂推理,原生支持256K超长上下文,在语言理解、数学推理等领域测试得分领先。目前已在腾讯会议AI助手、微信读书、智能座舱等场景落地,同时兼容ARM、高通等芯片平台及主流推理框架。

参考:继续开源:腾讯混元 0.5B、1.8B、4B、7B模型发布

华为全面开源「CANN」与「1B、7B、718B」三款盘古模型

8月5日,华为轮值董事长徐直军宣布「CANN」(神经网络计算架构)全面开源开放,同时开源Mind系列应用套件及工具链,并联合行业伙伴发起《CANN开源开放生态共建倡议》。「CANN」是华为针对AI场景开发的异构计算架构,可以提高华为昇腾AI芯片在处理AI任务时的效率。前一日,华为还开源了三款盘古模型,参数规模分别为「1B、7B、718B」。新开源模型采用多项创新技术如Multi-head Latent Attention和负载均衡策略,Ultra MoE具备快慢思考融合能力。

参考:华为开源7180亿参数大模型!

阿里通义千问开源全新文生图模型「Qwen-Image」

8月5日,阿里通义千问开源全新文生图模型「Qwen-Image」,这是通义千问系列中首个图像生成基础模型,具备20B参数,支持高保真文本渲染、风格一致的图像编辑,适用于海报设计、小幅面长文本生成等多种场景。该模型采用MMDiT架构和渐进式训练策略,在文本渲染和图像编辑多项基准测试中均达到SOTA水平。

参考:告别文字乱码!全新文生图模型Qwen-Image来咯

Google DeepMind发布新一代通用世界模型「Genie 3」

8月5日,Google DeepMind发布新一代通用世界模型「Genie 3」,能一句话生成动态可交互世界,以每秒20-24帧速度,实时生成720p画面,还能持续数分钟一致性。「Genie 3」首次实现实时交互功能,生成内容连贯性可维持数分钟,视觉记忆最远可追溯到一分钟前,模型能模拟物理世界、自然环境、创建动画奇幻世界及探索地点与历史场景,并支持通过文本指令改变天气、引入物体等“世界事件”,可作为AI智能体训练的复杂环境。

参考:谷歌深夜放出「创世引擎」Genie 3!一句话秒生宇宙,终极模拟器觉醒

Anthropic发布最强编程模型「Claude Opus 4.1」

8月6日,Anthropic正式发布「Claude Opus 4.1」,在编码基准测试SWE-bench Verified中准确率达74.5%,超越GPT-4.1(54.6%),成为当前最强编程模型。新版本支持32K上下文输出和7小时连续编程,能精准定位大型代码库错误,GitHub、Rakuten等企业实测效率显著提升。推理能力同步升级,TAU-bench任务准确率达80%,支持数小时自主研究与复杂工作流,模型价格保持不变。

参考:最强编程模型Claude Opus 4.1上线:小更新加量不加价,预告还有重磅消息

OpenAI开源两个新推理模型「GPT-OSS-120B」和「GPT-OSS-20B」

8月6日,OpenAI开源了两个新推理模型「GPT-OSS-120B」和「GPT-OSS-20B」,模型采用宽松的Apache 2.0许可证,性能接近闭源的「O4-Mini」。两款模型均使用交替密集和局部带状稀疏注意力模式,原生支持128K上下文长度。模型采用原生MXFP4精度训练,「GPT-OSS-120B」可在单个H100 GPU上运行,「GPT-OSS-20B」仅需16GB内存,适用于高端笔记本甚至手机。

参考:OpenAI重新开源!深夜连发两个推理模型,o4-mini水平,笔记本、手机可跑

面壁智能正式开源新一代多模态模型「MiniCPM-V 4.0」

8月6日,面壁智能发布并开源新一代多模态模型「MiniCPM-V 4.0」。依靠4B参数,取得在OpenCompass、OCRBench、MathVista等多个榜单上取得了同级SOTA成绩,且实现了在手机上稳定、丝滑运行。此外,还开源了推理部署工具「MiniCPM-V CookBook」,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。

参考:MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!

小红书hi lab开源首款多模态大模型「dots.vlm1」

8月6日,小红书hi lab开源首款多模态大模型「dots.vlm1」,构建于一个从零训练的12亿参数视觉编码器「NaViT」和「Deepseek V3」大语言模型之上,在视觉的理解和推理任务上表现接近闭源领先模型,尤其在图文理解和推理方面,「dots.vlm1」能够解读复杂图表、理解表情包含义,并分析产品配料差异。

参考:小红书 hi lab 开源多模态大模型 dots.vlm1,效果接近闭源 SoTA 模型

阿里通义千问更新两款「Qwen3-4B」更小尺寸新模型

8月7日,阿里云通义千问团队更新了两款「Qwen3-4B」更小尺寸新模型,分别是「Qwen3-4B-Instruct-2507」和「Qwen3-4B-Thinking-2507」,推理能力和通用能力显著增强,超越部分大模型的新4B模型,上下文理解拓展至256K,支持更复杂的文档分析、长篇内容生成、跨段落推理等场景。

参考:Qwen3-4B超顶小模型更新登场!手机也能轻松跑!

MiniMax发布新一代语音生成模型「Speech 2.5」

8月7日,MiniMax发布新一代语音生成模型「Speech 2.5」,支持40种语言的真实语音生产,并显著提升了多语种表现、音色复刻的真实感与自然度。新模型不仅降低了机械感,提高了自然韵律,还支持不同地区口音复刻和特定年龄声线特点的保留。新增的小语种如保加利亚语、丹麦语、希伯来语等,为跨境电商和本地化营销提供了便利。

参考:全球第一再升级!MiniMax Speech 2.5上线:多语种表现力更强,音色复刻更“像”

OpenAI正式发布新一代旗舰模型「GPT-5」

8月8日,OpenAI正式发布新一代旗舰模型「GPT-5」,在编码、数学、写作、健康、视觉感知等场景能力显著提升,大幅减少幻觉,指令遵循能力更强,显著减少谄媚、讨好性回答。「GPT-5」被定位为“博士级专家”,集成深度推理与工具调用能力,在多项基准测试中表现领先。引入“安全生成”策略替代直接拒答,支持“氛围编程”(Vibe Coding),用户仅凭自然语言指令即可生成可运行应用。本次「GPT-5」共有4个版本,分为「GPT-5」、「GPT-5 mini」、「GPT-5 nano」及「GPT-5 Pro」,即日起向所有免费、Plus、Pro、Team用户开放。

参考:GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用

AI 工具

Google开源结构化信息提取工具「LangExtract」

8月1日,Google正式开源高精度信息抽取工具「LangExtract」,本质是一个开源的Python库,旨在通过大语言模型(LLMs)从非结构化文本中提取结构化信息,并提供可视化来源定位。其核心突破在于 “精确源文本溯源”,可将提取的每个数据点映射回原文位置,并生成交互式HTML可视化报告,便于人工校验与审计。该工具支持少样本学习,用户仅需提供少量示例即可定义任务,无需模型微调,且兼容Gemini等云端模型及本地开源模型,适配不同算力环境。

参考:谷歌开源结构化信息提取神器!4K+ Star,精准定位+交互式可视化!

Google联合Kaggle推出全新LLM评估平台「Game Arena」,开启首届LLM对抗赛

8月2日,Google联合Kaggle推出了一个全新LLM评估平台「Game Arena」,该平台通过让LLM在战略游戏中直接对抗,提供一个客观、动态且可扩展的评估新范式。为庆祝平台上线,将举行首届LLM对抗赛,8款顶尖AI模型(Google,OpenAI,Anthropic,xAI,DeepSeek,Kimi)将在国际象棋领域一决高下,世界棋王马格努斯·卡尔森等人解说。比赛将采用单败淘汰制,模型不能使用外部工具,将通过纯文本方式推理下棋,比赛环境与框架全部开源。

参考:复刻AlphaGo时刻?谷歌推出LLM评估新范式Game Arena:八大模型参赛,棋王当裁判

Grok App推出AI短视频生成功能「Grok Imagine」

8月3日,马斯克旗下xAI推出的Grok App新增AI短视频生成「Grok Imagine」功能,已向所有Grok Heavy用户开放。该功能可一键生成高质量动画、写实风格短视频,生成速度极快;马斯克暗示这是AI版Vine,原版也即将回归。

参考:马斯克再放大招!Grok AI短视频爆火,一夜疯狂刷屏

智谱AI推出搭载「GLM-4.5」大模型的开发效率工具「Zread.ai」

8月5日,智谱AI正式推出搭载「GLM-4.5」大模型的开发效率工具「Zread.ai」,为开发者提供全流程代码解析解决方案。该工具通过输入GitHub仓库链接,可一键生成结构化文档、架构图及API说明,自动标注核心模块与代码逻辑,并支持多仓库对比分析和社区趋势追踪。

参考:智谱推出Zread搭载GLM-4.5,为开发者重构技术理解力

技术突破

360集团「纳米AI」升级为「多智能体蜂群」,智能体迈入L4 时代

8月1日,360集团宣布旗下「纳米AI」升级为「多智能体蜂群」,是全球首个真正迈入L4级别的智能体系统。「多智能体蜂群」(L4级)通过灵活组队、记忆共享和协同规划,可连续执行1000步复杂任务,任务成功率高达95.4%,单次任务消耗Token量达500万至3000万,能够实现智能体从“单兵作战”到“群体协同”的进化。用户输入一句话即可生成10分钟高质量AI视频,降低95%制作成本。

参考:全球首个!纳米AI多智能体蜂群上线

腾讯AI Lab开源GAIA同级最强Agent框架「Cognitive Kernel-Pro」,打破付费依赖

8月6日消息,腾讯AI Lab推出了开源框架「Cognitive Kernel-Pro」,一款全开源、多模块、层次化的智能体框架,打破现有开源工具对付费服务的依赖,为全球开发者提供了一套高效、灵活且可复现的智能体开发解决方案。在GAIA基准测试中,超越了同类开源对手,并提供完整的代码和数据支持。该框架采用分层模块化设计,包括主智能体和多个子智能体,能够高效处理复杂任务;在数据构建上创新地让AI自主生成问题,提升数据质量,同时采用自我反思和集体决策机制来提高智能体的可靠性和准确性。

参考:腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖

AI 行业动态

国家安全部发布警示,警惕「AI助手」被「数据污染」

8月5日,国家安全部发布警示:AI训练数据中混入0.01%虚假文本,可使模型有害输出增加11.2%,即使0.001%污染也会导致7.2%增幅。实验表明,恶意数据通过篡改训练参数诱导模型生成攻击性内容、虚假信息,甚至形成“污染遗留效应”:AI 生成的虚假内容会成为新污染源,造成错误信息逐代累积。专家强调需建立数据分类分级保护制度,通过数据溯源、对抗性测试等技术手段构建防御体系。

参考:防它!别来污染我的“小助手”

NVIDIA发文称NVIDIA芯片不存在后门、终止开关和监控软件

8月6日,NVIDIA发布长文称NVIDIA芯片不存在后门、终止开关和监控软件。近期NVIDIA算力芯片被曝出存在严重安全问题。此前,美议员呼吁要求美出口的先进芯片必须配备“追踪定位”功能。美人工智能领域专家透露,英伟达算力芯片“追踪定位”“远程关闭”技术已成熟。为维护中国用户网络安全、数据安全,依据《网络安全法》《数据安全法》《个人信息保护法》有关规定,国家互联网信息办公室于2025年7月31日约谈了英伟达公司,要求英伟达公司就对华销售的H20算力芯片漏洞后门安全风险问题进行说明并提交相关证明材料。NVIDIA强调,NVIDIA GPU不存在也不应该设置终止开关和后门。

参考:NVIDIA 芯片不存在后门、终止开关和监控软件

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐