本周AI领域迎来多项重要进展,Meta DINOv3、阿里Qwen-Image-Edit、字节Seed-OSS-36B、腾讯混元3D-Lite、DeepSeek V3.1等模型连发,刷新视觉、推理、3D、长文上限;百度GenFlow 2.0、智谱AutoGLM 2.0等通用Agent推动任务自动化升级;多款AI工具持续更新,提升开发与创作效率;OpenAI牵头推出Agent标准,Meta重组AI部门等前沿动态应接不暇,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

Meta正式推出并开源通用视觉基础模型「DINOv3」

8月15日,Meta正式推出并开源了「DINOv3」,一款通用的、SOTA级的视觉基础模型,采用自监督学习(SSL)训练,能够生成更高质量的高分辨率视觉特征。该模型采用创新的Gram Anchoring策略和旋转位置编码(RoPE),参数规模扩展至70亿,训练数据扩展至17亿张图像。「DINOv3」商业许可开源,提供多种规模模型系列(如ViT-B、ViT-L),并专门训练了一整套骨干网络(如卫星图像),世界资源研究所已实际应用。

腾讯混元推出「混元3D世界生成模型1.0-Lite」版本

8月15日,腾讯混元推出「混元3D世界生成模型1.0-Lite」版本,显著降低显存需求,适配消费级显卡(如RTX 4090),通过引入动态FP8量化技术,显存占用从26GB优化至17GB以下,减少了35%;结合SageAttention量化技术,推理速度提升3倍以上,精度损失小于1%。此外,新版还支持360度全景生成和Mesh文件导出与二次编辑,可无缝接入游戏和物理引擎。

快手推出「Klear-Reasoner」模型,登顶8B榜首

8月18日,快手Klear语言大模型团队推出了全新的「Klear-Reasoner」模型,基于「Qwen3-8B-Base」打造,数学推理准确率超90%,在AIME2024、AIME2025等多个权威基准测试中达到同规模模型的SOTA水平。该模型采用GPPO算法和高质量数据筛选策略,有效解决了传统强化学习中探索能力受限和负样本收敛慢的问题。

阿里通义千问发布图像编辑模型「Qwen-Image-Edit」

8月19日,阿里通义千问团队发布「Qwen-Image-Edit」图像编辑模型,基于20B的「Qwen-Image」模型进一步训练,将文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。同时将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观双重编辑能力,支持中英文双语精准文字编辑并保持原风格。

NVIDIA发布全新架构「NVIDIA Nemotron Nano 2 9B」模型

8月19日,NVIDIA发布了一个只有9B大小的「NVIDIA Nemotron Nano 2 9B」模型,采用Mamba-Transformer混合架构,在复杂推理任务中相较于「Qwen3-8B」提升了最高6倍的吞吐量。该模型在20万亿Token数据上进行预训练,具备优异的数学、代码及推理能力,且支持长达128K的上下文。

阿里国际数字贸易集团推出「Ovis2.5」多模态模型

8月19日消息,阿里国际数字贸易集团AI团队(AIDC-AI)近日发布了「Ovis2.5」多模态模型,提供9B和2B两种参数量版本,定位为经济型视觉推理模型。该模型通过原生分辨率视觉编码器(NaViT)避免图像切割导致的信息损失,同时引入可选的“思考模式”支持自我修正推理,刷新多项权威基准测试记录。「Ovis2.5」在OCR与图表分析方面表现出色,能够处理复杂的图表分析和文档理解;此外,在视觉定位、视频理解等专业任务中也展现领先性能。

字节跳动开源三款36B参数大模型「Seed-OSS-36B」

8月21日,字节跳动Seed团队发布并开源三款「Seed-OSS」系列模型,分别是「Seed-OSS-36B-Base」(含合成数据和不含合成数据两个版本)和「Seed-OSS-36B-Instruct」。模型使用12万亿tokens训练,采用Apache-2.0许可证允许商业使用,原生支持512K超长上下文窗口和灵活推理预算控制,推理能力刷新开源模型记录。

「DeepSeek V3.1」正式发布,支持128K超长上下文,API价格同步调整

8月21日,深度求索正式发布「DeepSeek V3.1」,采用混合推理架构,同时支持思考模式与非思考模式,拥有更高的思考效率及更强的Agent能力。目前官方App与网页端模型已同步升级,且上下文均拓展至128K,采用UE8M0 FP8 Scale参数精度,新增对Anthropic API格式的支持。此外,将于2025年9月6日起,对DeepSeek开放平台API接口调用价格进行调整,取消夜间优惠。

百度上线音视频一体化模型「百度蒸汽机2.0」,全面开放四个版本

8月21日,百度音视频一体化模型「百度蒸汽机2.0」(MuseSteamer )正式发布,全面开放Turbo版、Lite版、Pro版,及有声版。该模型采用“多模态潜在空间规划器”技术,主打多人有声音视频一体化生成,能精准匹配中文口型,支持情感表达和方言,驱动静态照片说对白,大幅降低视频制作成本和复杂度。

AI Agent

百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」

8月18日,在百度AI Day开放日上,百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」,实现“全端通用、并行任务、记忆可溯”三大突破。「GenFlow 2.0」采用自研Multi-Agent架构,支持超100个专业Agent并行协作,3分钟内完成超5项复杂任务(如生成PPT、研报、图表等),生成速度超主流产品10倍,率先做到“分钟级交付、过程可干预、记忆可追溯”

智谱发布全球首个手机通用智能体「AutoGLM 2.0」,全民可用

8月20日,智谱发布全球首个手机通用智能体「AutoGLM 2.0」,开创Agent+云手机/云电脑的新技术范式,全民可用。「AutoGLM 2.0」由国产模型「GLM-4.5」与「GLM-4.5V」驱动,创新性地为AI配备专属云端设备,支持云端自主执行多样化任务,不抢占本地设备,突破硬件限制,实现全设备跨场景应用,在Device Use基准测试中表现优于ChatGPT Agent等主流产品。

AI 工具

腾讯云发布全新AI开发工具「CloudBase AI CLI」,减少80%编码量

8月15日,腾讯云发布全新AI开发工具「CloudBase AI CLI」,定位为首个深度集成云开发平台的AI CLI统一管理工具,支持开发者通过自然语言,在命令行里统一调度此前需单独配置的AI CLI工具(如Claude Code、OpenAI Codex、aider、Qwen Code 等),并与云开发打通,从生成代码到部署运维一气呵成,可减少80%的编码量。

「ToonComposer」实现AI驱动动漫自动上色与动画生成,节省70%人工时间

8月19日消息,由北京大学、香港中文大学与腾讯ARC实验室联合打造的「ToonComposer」,采用“生成后补间”技术,实现从草图与单帧彩色图像生成完整卡通视频,节省高达70%人工时间。该技术提供关键帧控制与区域留白填充功能,显著提升动漫制作效率。目前为学术研究项目,暂不用于商业用途。  

腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」

8月19日,腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」,该数据集包含3920个问题,均匀分布在20种编程语言中,具有高难度、实用性和多样性等特点,旨在衡量模型多语言性能。现在「AutoCodeBench」已经开源,任何大模型均可使用该测试集进行代码能力评估。

「企业微信5.0」上线,推出六大全新AI能力,实现一体化办公协作

8月20日,腾讯正式发布「企业微信5.0」版本,重点围绕“AI”和“办公”两个关键词,推出智能搜索、智能总结、智能机器人、智能会议邮件整合、智能表格和智能服务总结功能等六大全新AI能力,实现一体化办公协作。

腾讯元宝接入「腾讯视频」功能,打造“搜索+推荐”一体化观影体验

8月21日,腾讯元宝接入「腾讯视频」功能,用户可通过输入片名或相关线索快速检索影片,支持封面卡片展示和一键跳转观看。同时推出全新影视搜索与个性化推荐功能,用户可通过给出片名寻找类似风格的影片、向元宝描述场景获取个性化片单推荐、用模糊记忆找回想不起名字的电影,此外元宝还能与用户深入探讨影片的创作背景、剧情等,生成个性化片单。

技术突破

OpenAI联合推出「AGENTS.md」标准, 统一Agent规则

8月20日,OpenAI联合Google、Amp、Cursor等厂商,共同推出了一个简单、开放的Agents标准「AGENTS.md」,为AI编程领域带来新变革。「AGENTS.md」是一种专门为AI编码代理(coding agents)设计的开放格式文档,作用相当于项目的 “README for agents”,但它不是给人类贡献者看的,而是给AI看的,为AI代理提供构建步骤、测试指令、修复Bug等关键信息,让AI能像资深工程师一样工作。

港大和快手可灵提出「Context as Memory」,实现场景一致的交互式长视频生成

8月21日消息,港大和快手可灵的研究团队近期提出的「Context as Memory」视频生成技术,能够解决长视频生成中场景记忆丢失的问题,效果接近Genie 3且投稿时间更早。该技术无需显式3D建模,通过将历史生成的视频上下文作为长期记忆存储,通过上下文学习保持前后场景的一致性;并基于相机轨迹视场(FOV)的记忆检索机制,大幅提升计算效率并降低训练成本。

行业动态

国家数据局:我国日均Token消耗量突破30万亿,中文数据训练超60%

8月17日消息,据国家数据局发布数据显示,我国日均Token消耗量从2024年初的1千亿激增至2025年6月底的30万亿,一年半增长超300倍,彰显AI应用规模快速增长。中文数据在国内大模型训练中占比普遍超60%,部分达80%,显著提升模型性能。

Meta计划重组AI部门,超级智能实验室一拆四引关注

8月19日消息,据报道Meta计划第四次重组AI部门,将超级智能实验室拆分为4个团队:TBD Lab(To Be Determined,待确定,负责探索/先导研究)、产品和应用团队(含Meta AI助手)、基础设施团队(训练与推理算力、数据与平台)、FAIR(Fundamental AI Research,长期前沿研究)。重组的背后是硅谷史上最疯狂的人才掠夺战,Meta或将放弃坚守多年的开源路线。

「GPT-5 Pro」自主证明全新数学定理引发关注

8月21日,OpenAI研究人员表示,「GPT-5 Pro」在阅读一篇数学领域研究凸优化问题的论文后,独立改进了定理中的步长条件,将保证优化曲线凸性的步长阈值从1/L提升至1.5/L,并提供了完整证明。虽然论文作者随后提供了超越AI的新方法,但「GPT-5 Pro」的证明过程与人类方法截然不同。OpenAI的总裁表示,这表明「GPT-5 Pro」已经具备了独立探索的能力, AI在数学领域的潜力正逐渐显现。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐