MIAOYUN | 每周AI新鲜事儿（08.15-08.22）

本周AI领域迎来多项突破性进展：Meta发布开源视觉基础模型DINOv3，腾讯混元推出适配消费级显卡的3D世界生成模型Lite版，阿里通义千问发布精准图像编辑模型Qwen-Image-Edit。NVIDIA推出吞吐量提升6倍的混合架构模型，字节跳动开源36B参数大模型Seed-OSS-36B。AI Agent方面，百度发布全球首个全端通用智能体GenFlow2.0，智谱推出手机通用智能体AutoG

秒云

771人浏览 · 2025-08-25 09:31:40

秒云 · 2025-08-25 09:31:40 发布

本周AI领域迎来多项重要进展，Meta DINOv3、阿里Qwen-Image-Edit、字节Seed-OSS-36B、腾讯混元3D-Lite、DeepSeek V3.1等模型连发，刷新视觉、推理、3D、长文上限；百度GenFlow 2.0、智谱AutoGLM 2.0等通用Agent推动任务自动化升级；多款AI工具持续更新，提升开发与创作效率；OpenAI牵头推出Agent标准，Meta重组AI部门等前沿动态应接不暇，一起来回顾本周发生的AI新鲜事儿吧！

AI 大模型

Meta正式推出并开源通用视觉基础模型「DINOv3」

8月15日，Meta正式推出并开源了「DINOv3」，一款通用的、SOTA级的视觉基础模型，采用自监督学习（SSL）训练，能够生成更高质量的高分辨率视觉特征。该模型采用创新的Gram Anchoring策略和旋转位置编码(RoPE)，参数规模扩展至70亿，训练数据扩展至17亿张图像。「DINOv3」商业许可开源，提供多种规模模型系列(如ViT-B、ViT-L)，并专门训练了一整套骨干网络（如卫星图像），世界资源研究所已实际应用。

腾讯混元推出「混元3D世界生成模型1.0-Lite」版本

8月15日，腾讯混元推出「混元3D世界生成模型1.0-Lite」版本，显著降低显存需求，适配消费级显卡（如RTX 4090），通过引入动态FP8量化技术，显存占用从26GB优化至17GB以下，减少了35%；结合SageAttention量化技术，推理速度提升3倍以上，精度损失小于1%。此外，新版还支持360度全景生成和Mesh文件导出与二次编辑，可无缝接入游戏和物理引擎。

快手推出「Klear-Reasoner」模型，登顶8B榜首

8月18日，快手Klear语言大模型团队推出了全新的「Klear-Reasoner」模型，基于「Qwen3-8B-Base」打造，数学推理准确率超90%，在AIME2024、AIME2025等多个权威基准测试中达到同规模模型的SOTA水平。该模型采用GPPO算法和高质量数据筛选策略，有效解决了传统强化学习中探索能力受限和负样本收敛慢的问题。

阿里通义千问发布图像编辑模型「Qwen-Image-Edit」

8月19日，阿里通义千问团队发布「Qwen-Image-Edit」图像编辑模型，基于20B的「Qwen-Image」模型进一步训练，将文本渲染能力延展至图像编辑领域，实现了对图片中文字的精准编辑。同时将输⼊图像同时输⼊到Qwen2.5-VL（实现视觉语义控制）和VAE Encoder（实现视觉外观控制），从而兼具语义与外观双重编辑能力，支持中英文双语精准文字编辑并保持原风格。

NVIDIA发布全新架构「NVIDIA Nemotron Nano 2 9B」模型

8月19日，NVIDIA发布了一个只有9B大小的「NVIDIA Nemotron Nano 2 9B」模型，采用Mamba-Transformer混合架构，在复杂推理任务中相较于「Qwen3-8B」提升了最高6倍的吞吐量。该模型在20万亿Token数据上进行预训练，具备优异的数学、代码及推理能力，且支持长达128K的上下文。

阿里国际数字贸易集团推出「Ovis2.5」多模态模型

8月19日消息，阿里国际数字贸易集团AI团队(AIDC-AI)近日发布了「Ovis2.5」多模态模型，提供9B和2B两种参数量版本，定位为经济型视觉推理模型。该模型通过原生分辨率视觉编码器（NaViT）避免图像切割导致的信息损失，同时引入可选的“思考模式”支持自我修正推理，刷新多项权威基准测试记录。「Ovis2.5」在OCR与图表分析方面表现出色，能够处理复杂的图表分析和文档理解；此外，在视觉定位、视频理解等专业任务中也展现领先性能。

字节跳动开源三款36B参数大模型「Seed-OSS-36B」

8月21日，字节跳动Seed团队发布并开源三款「Seed-OSS」系列模型，分别是「Seed-OSS-36B-Base」（含合成数据和不含合成数据两个版本）和「Seed-OSS-36B-Instruct」。模型使用12万亿tokens训练，采用Apache-2.0许可证允许商业使用，原生支持512K超长上下文窗口和灵活推理预算控制，推理能力刷新开源模型记录。

「DeepSeek V3.1」正式发布，支持128K超长上下文，API价格同步调整

8月21日，深度求索正式发布「DeepSeek V3.1」，采用混合推理架构，同时支持思考模式与非思考模式，拥有更高的思考效率及更强的Agent能力。目前官方App与网页端模型已同步升级，且上下文均拓展至128K，采用UE8M0 FP8 Scale参数精度，新增对Anthropic API格式的支持。此外，将于2025年9月6日起，对DeepSeek开放平台API接口调用价格进行调整，取消夜间优惠。

百度上线音视频一体化模型「百度蒸汽机2.0」，全面开放四个版本

8月21日，百度音视频一体化模型「百度蒸汽机2.0」（MuseSteamer ）正式发布，全面开放Turbo版、Lite版、Pro版，及有声版。该模型采用“多模态潜在空间规划器”技术，主打多人有声音视频一体化生成，能精准匹配中文口型，支持情感表达和方言，驱动静态照片说对白，大幅降低视频制作成本和复杂度。

AI Agent

百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」

8月18日，在百度AI Day开放日上，百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」，实现“全端通用、并行任务、记忆可溯”三大突破。「GenFlow 2.0」采用自研Multi-Agent架构，支持超100个专业Agent并行协作，3分钟内完成超5项复杂任务（如生成PPT、研报、图表等），生成速度超主流产品10倍，率先做到“分钟级交付、过程可干预、记忆可追溯”

智谱发布全球首个手机通用智能体「AutoGLM 2.0」,全民可用

8月20日，智谱发布全球首个手机通用智能体「AutoGLM 2.0」，开创Agent+云手机/云电脑的新技术范式，全民可用。「AutoGLM 2.0」由国产模型「GLM-4.5」与「GLM-4.5V」驱动，创新性地为AI配备专属云端设备，支持云端自主执行多样化任务，不抢占本地设备，突破硬件限制，实现全设备跨场景应用，在Device Use基准测试中表现优于ChatGPT Agent等主流产品。

AI 工具

腾讯云发布全新AI开发工具「CloudBase AI CLI」，减少80%编码量

8月15日，腾讯云发布全新AI开发工具「CloudBase AI CLI」，定位为首个深度集成云开发平台的AI CLI统一管理工具，支持开发者通过自然语言，在命令行里统一调度此前需单独配置的AI CLI工具（如Claude Code、OpenAI Codex、aider、Qwen Code 等），并与云开发打通，从生成代码到部署运维一气呵成，可减少80%的编码量。

「ToonComposer」实现AI驱动动漫自动上色与动画生成，节省70%人工时间

8月19日消息，由北京大学、香港中文大学与腾讯ARC实验室联合打造的「ToonComposer」，采用“生成后补间”技术，实现从草图与单帧彩色图像生成完整卡通视频，节省高达70%人工时间。该技术提供关键帧控制与区域留白填充功能，显著提升动漫制作效率。目前为学术研究项目，暂不用于商业用途。

腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」

8月19日，腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」，该数据集包含3920个问题，均匀分布在20种编程语言中，具有高难度、实用性和多样性等特点，旨在衡量模型多语言性能。现在「AutoCodeBench」已经开源，任何大模型均可使用该测试集进行代码能力评估。

「企业微信5.0」上线，推出六大全新AI能力，实现一体化办公协作

8月20日，腾讯正式发布「企业微信5.0」版本，重点围绕“AI”和“办公”两个关键词，推出智能搜索、智能总结、智能机器人、智能会议邮件整合、智能表格和智能服务总结功能等六大全新AI能力，实现一体化办公协作。

腾讯元宝接入「腾讯视频」功能，打造“搜索+推荐”一体化观影体验

8月21日，腾讯元宝接入「腾讯视频」功能，用户可通过输入片名或相关线索快速检索影片，支持封面卡片展示和一键跳转观看。同时推出全新影视搜索与个性化推荐功能，用户可通过给出片名寻找类似风格的影片、向元宝描述场景获取个性化片单推荐、用模糊记忆找回想不起名字的电影，此外元宝还能与用户深入探讨影片的创作背景、剧情等，生成个性化片单。

技术突破

OpenAI联合推出「AGENTS.md」标准，统一Agent规则

8月20日，OpenAI联合Google、Amp、Cursor等厂商，共同推出了一个简单、开放的Agents标准「AGENTS.md」，为AI编程领域带来新变革。「AGENTS.md」是一种专门为AI编码代理（coding agents）设计的开放格式文档，作用相当于项目的 “README for agents”，但它不是给人类贡献者看的，而是给AI看的，为AI代理提供构建步骤、测试指令、修复Bug等关键信息，让AI能像资深工程师一样工作。

港大和快手可灵提出「Context as Memory」，实现场景一致的交互式长视频生成

8月21日消息，港大和快手可灵的研究团队近期提出的「Context as Memory」视频生成技术，能够解决长视频生成中场景记忆丢失的问题，效果接近Genie 3且投稿时间更早。该技术无需显式3D建模，通过将历史生成的视频上下文作为长期记忆存储，通过上下文学习保持前后场景的一致性；并基于相机轨迹视场（FOV）的记忆检索机制，大幅提升计算效率并降低训练成本。

行业动态

国家数据局：我国日均Token消耗量突破30万亿，中文数据训练超60%

8月17日消息，据国家数据局发布数据显示，我国日均Token消耗量从2024年初的1千亿激增至2025年6月底的30万亿，一年半增长超300倍，彰显AI应用规模快速增长。中文数据在国内大模型训练中占比普遍超60%，部分达80%，显著提升模型性能。

Meta计划重组AI部门，超级智能实验室一拆四引关注

8月19日消息，据报道Meta计划第四次重组AI部门，将超级智能实验室拆分为4个团队：TBD Lab（To Be Determined，待确定，负责探索/先导研究）、产品和应用团队（含Meta AI助手）、基础设施团队（训练与推理算力、数据与平台）、FAIR（Fundamental AI Research，长期前沿研究）。重组的背后是硅谷史上最疯狂的人才掠夺战，Meta或将放弃坚守多年的开源路线。

「GPT-5 Pro」自主证明全新数学定理引发关注

8月21日，OpenAI研究人员表示，「GPT-5 Pro」在阅读一篇数学领域研究凸优化问题的论文后，独立改进了定理中的步长条件，将保证优化曲线凸性的步长阈值从1/L提升至1.5/L，并提供了完整证明。虽然论文作者随后提供了超越AI的新方法，但「GPT-5 Pro」的证明过程与人类方法截然不同。OpenAI的总裁表示，这表明「GPT-5 Pro」已经具备了独立探索的能力， AI在数学领域的潜力正逐渐显现。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

[论文阅读]Benchmarking Poisoning Attacks against Retrieval-Augmented Generation

2048 AI社区

GPT-5攻克「量子NP难题」，首篇论文引爆学界！人类2周压缩至30分钟

GPT-5正改写科学发现的规则！一篇重磅论文揭秘，「量子版NP难题」竟被GPT-5在30分钟之内攻克了，然而这要耗费人类1-2周的时间。照这种速度发展下去，AI离完成「诺奖级」突破真的不远了。意想不到的是，这一次，GPT-5又「攻陷」了量子领域的难题。量子计算专家Scott Aaronson首次发表论文，证明其中一个老难题竟被GPT-5助攻破解了。论文中，Scott一直在死磕量子计算中的一个核心问