MIAOYUN | 每周AI新鲜事儿（08.22-08.29）

近期全球AI领域进展密集，Google、NVIDIA、xAI、Kimi、苹果、微软、阿里、腾讯、OpenBMB等企业推出新一代大模型，Qoder、Zulu-CLI、DingTalkA1等多款AI工具也相继亮相，在语音、视频、编程与智能体等方面实现显著突破。市场方面，“人工智能+”行动提供系统支持，AI应用在全球迅速崛起，多款产品跻身全球Top100消费级榜单；一起来回顾本周发生的AI新鲜事儿吧！

秒云

815人浏览 · 2025-09-01 09:47:32

秒云 · 2025-09-01 09:47:32 发布

AI 大模型

钉钉、通义实验室语音团队联合推出新一代语音识别大模型「Fun-ASR」

8月22日，钉钉、通义实验室语音团队联合宣布推出新一代语音识别大模型「Fun-ASR」，能准确转写各种语音信号，具备识别多行业术语、不同语言与口音的能力，也能结合上下文信息实现更精准的转录，在家装、保险等行业识别准确率提升超15%（保险18%、家装/畜牧15%-20%），并支持企业专属模型定制训练。

参考：钉钉联手通义推出Fun-ASR语音识别大模型，可听懂家居、畜牧等十大行业黑话

月之暗面宣布推出其最新大模型「Kimi-k2-turbo-preview」

8月22日，月之暗面宣布推出其最新大模型「Kimi-k2-turbo-preview」，模型输出速度已经提升至每秒60 Tokens，最高可达每秒100 Tokens。该模型与「KimiK2」参数一致，基于MoE架构（总参数1T、激活32B），在代码生成、智能体调度、数学推理表现出色，目前仍然享受5折特惠价格，每百万Tokens输入价格（缓存命中）仅需2.00元，缓存未命中为8.00元，输出价格为32.00元，9月1日恢复原价。

参考：Kimi K2 又又又提速了！

快手可灵AI发布全新2.1模型，新增「首尾帧功能」

8月22日，快手旗下可灵AI发布全新2.1模型，新增「首尾帧功能」，该功能通过端到端多模态语义推理能力的升级，显著提升首尾帧功能视频生成效果；据评测数据显示，与此前1.6版本相比效果提升235%。该功能还能打造超燃视觉特效，在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现尤为突出。

参考：很强，但不完美，实测可灵2.1“首尾帧”功能

马斯克xAI开源大模型「Grok 2.5」，6个月后开源「Grok 3」

8月23日，马斯克旗下AI公司xAI宣布开源其大模型「Grok 2.5」，并计划6个月后开源「Grok 3」。用户可通过HuggingFace下载42个文件，大小约500GB，需8块40GB显存GPU配合SGLang 引擎运行。在前一天，马斯克还表示，成立一家名为Macrohard（意为“巨硬”）的新公司，利用AI的力量来对抗微软的软件业务。

参考：刚刚，马斯克开源Grok 2.5：中国公司才是xAI最大对手

苹果开源长视频多模态大模型「SlowFast-LLaVA-1.5」

8月25日消息，苹果机器学习研究团队近日开源长视频多模态大模型「SlowFast-LLaVA-1.5」，在1B、3B、7B参数规模下均刷新LongVideoBench、MLVU等权威基准测试纪录。该模型通过创新的双流机制（“慢流”与“快流”）和精简的训练框架，实现了高分辨率场景细节与运动变化的有效捕捉，显著降低计算与显存需求。测试显示，即使1B版本也超越竞品，且在知识问答、数学推理、OCR等图像任务中表现优异，实现视频与图像通用理解。

参考：视频大模型创新SlowFast-LLaVA-1.5高效解读长时视频

微软研究院开源创新音频模型「VibeVoice-1.5B」

8月26日，微软研究院开源创新音频模型「VibeVoice-1.5B」，不仅一次性连续合成90分钟超长逼真语音（此前行业极限仅60分钟），更支持4人自然对话、3200倍音频压缩，压缩效率是主流Encodec模型的80倍。「VibeVoice-1.5B」通过首创双tokenizer（声学和语义）协同架构，成功解决传统TTS（文本转语音）音色与语义不匹配难题。

参考：语音界Sora！微软刚开源新模型，一次生成90分钟语音、3200倍压缩率

Google DeepMind发布新一代图像生成与编辑模型「Gemini 2.5 Flash Image」

8月26日，Google DeepMind发布新一代图像生成与编辑模型「Gemini 2.5 Flash Image」（代号“Nano Banana”），并将其整合进Gemini应用的原生图像编辑功能，凭借“角色一致性、基于提示的精准图像编辑、原生世界知识和多图像融合”四大超强能力，被网友称为「最强图像模型」。该模型不仅能融合多张图片拼接出全新画面，还能理解地理、建筑与物理结构，甚至将二维地图转化为三维景观。凭借Gemini的世界知识与交错生成技术，模型实现了“有记忆”的多轮创作，带来极高一致性与创造力。该模型现已通过Gemini API、Google AI Studio和Vertex AI提供预览，预计数周内推出稳定版本。

参考：谷歌「最强图像模型」横扫一切！3毛钱P图打懵OpenAI，PS要不存在了

OpenBMB开源8B参数的面壁小钢炮「MiniCPM-V 4.5」多模态旗舰模型

8月26日，OpenBMB团队开源8B参数的面壁小钢炮「MiniCPM-V 4.5」多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，兼顾性能与效率；高刷视频理解、图片理解、长视频理解、OCR、文档解析能力同级SOTA，且性能超过「Qwen2.5-VL 72B」达到越级领先；端侧友好，支持长思考、短思考可控混合推理，性能好、速度快。

参考：多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

阿里通义万相发布新一代音频驱动的视频生成模型「Wan2.2-S2V」

8月26日，阿里通义万相发布新一代音频驱动的视频生成模型「Wan2.2-S2V」，仅需一张图片和一段音频，即可生成面部表情自然、口型一致、肢体动作丝滑电影级数字人视频。模型生成视频时长可达分钟级，可大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。

参考：重磅开源！通义万相最新模型来了

NVIDIA发布全新混合架构语言模型系列「Jet-Nemotron」

8月26日，NVIDIA发布了一个全新的混合架构语言模型系列「Jet-Nemotron」，包含2B、4B参数版本。该模型提出后神经架构搜索（PostNAS）与新型线性注意力模块（JetBlock），实现从预训练Transformer出发的高效架构优化。相比「Qwen3」、「Gemma3」、「Llama3.2」等模型，「Jet-Nemotron」在数学、代码、常识、检索和长上下文等维度上准确率更高，同时在H100 GPU上推理吞吐量最高提升至53倍。

参考：刚刚，英伟达新模型上线！4B推理狂飙53倍，全新注意力架构超越Mamba 2

腾讯混元开源端到端视频音效生成模型「HunyuanVideo-Foley」

8月28日，腾讯混元发布并开源端到端视频音效生成模型「HunyuanVideo-Foley」，只需输入视频和文字，就能为视频匹配电影级音效。模型采用创新的双流多模态扩散变换器(MMDiT)架构和引入表征对齐（REPA）损失函数，实现多模态语义均衡响应，既能理解视频画面又能结合文字描述生成复合音效，提升音频生成质量和稳定性。该模型在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平

参考：混元开源又+1：视频音效可以自动生成了

AI 工具

阿里发布新一代Agentic编程平台「Qoder」，编程效率提升10倍以上

8月22日，阿里发布新一代Agentic编程平台「Qoder」，集成全球顶尖编程模型，具备超强的上下文工程能力和自主编程能力，开发效率提升显著，实测数据显示其代码生成准确率领先行业标杆产品13%。「Qoder」支持多种开发模式，包括Ask Mode（问答模式）和Agent Mode（智能体模式），及全新推出的Quest Mode（AI自主编程），可让复杂任务的开发效率提升10倍以上。

参考：新一代Agentic Coding平台Qoder来了！

钉钉发布「钉钉ONE」和首款AI硬件「DingTalkA1」等超10款AI产品

8月25日，钉钉在十周年发布会上，推出「8.0版本」并同步发布AI办公新形态「钉钉ONE」和首款AI硬件「DingTalkA1」等超过10款AI产品。「钉钉ONE」是人与AI对话统一入口，打造全球首个Agent驱动工作信息流，让工作处理如刷短视频般流畅，简化复杂流程、大幅提升信息处理效率。「DingTalkA1」厚3.8mm，支持磁吸固定于手机后壳，搭载6麦克风阵列与骨传导技术，实现8米收音，提供1万分钟免费转写（准确率97%），内置36个Agent模板，可分析通话助力销售。

参考：钉钉发布下一代办公应用形态重构AI时代的工作方式

上海人工智能实验室推出首个大模型数据价值评估开放平台「OpenDataArena」

8月25日，上海人工智能实验室推出首个大模型数据竞技场「OpenDataArena」，一个公平、公开、透明的SFT后训练数据价值评测平台，通过多维度评分和训练评测工具，帮助研究者更有效地筛选高质量数据集，优化数据生成过程，并深入洞察数据特征与模型效果之间的关系。该平台已覆盖4+领域，进行超过20个基准测试，评估超过100个数据集，总样本数超过2000万，并完成600多次模型训练。

参考：告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

文心快码新增「Zulu-CLI」终端编码功能，开发者效率再升级

8月26日，文心快码升级更新多项功能，包括「Zulu-CLI」、企业版支持自定义模型、一键设置自动执行、复用相同终端、本地代码库知识增强索引支持 SVN 仓库、支持对话中导出生成的图片等。其中「Zulu-CLI」终端编码能力的引入备受开发者关注，该功能允许用户在不离开命令行界面的前提下，通过自然语言指令完成编码任务，极大提升开发效率。

参考：新增Zulu-CLI、企业版对话支持自定义模型、一键设置自动执行、复用相同终端，8月新能力速览！

技术突破

阿里推出「Mobile-Agent-v3」智能体框架，开创GUI自动化新纪元

8月22日，阿里通义实验室发布跨平台多代理框架「Mobile-Agent-v3」，基于「GUI-Owl」（端到端多模态GUI代理基础模型）构建，具备行业领先的规划、进度管理、反思和记忆能力，全面提升用户的GUI自动化体验。作为该框架的基础模型，「GUI-Owl」融合感知、推理、规划、执行等综合能力多项功能，展现出强大的端到端多模态代理能力。

参考：最新智能体自动操作手机电脑，10个榜单开源SOTA全拿下｜通义实验室

NVIDIA推出新型「NVFP4」量化格式，大模型训练根本性转变

8月26日，NVIDIA推出新型「NVFP4」量化格式，能以4-Bit的速度与效率，实现16-Bit的生产件级训练精度，标志着大语言模型（LLM）开发的重大飞跃，这并非一次简单的渐进式改进，而是一次对大规模模型训练方式的根本性变革。研究显示，使用「NVFP4」的120亿参数模型在万亿级令牌数据集上表现稳定，验证损失曲线与FP8精度模型高度一致，确保了训练的准确性和有效性。此外，「NVFP4」在推理和训练阶段都能显著提高吞吐量。

参考：DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜

字节跳动推出智能体安全框架「Jeddak AgentArmor」，护航AI Agent安全

8月27日，字节跳动安全研究团队提出了全新的智能体安全框架「Jeddak AgentArmor」，将 AI Agent 运行时的行为轨迹，视为一段可分析、可验证的结构化程序。「AgentArmor」囊括了信任、安全、规则三大类型（跨域互操作的信任建立、对外部攻击的健壮抵御、对用户指令的忠实执行），是AI Agent实现大规模应用的前提。

参考：为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架

百度智能云「百舸AI计算平台5.0」和「千帆4.0」上线，突破算力瓶颈

8月28日，百度智能云在2025云智大会上宣布推出「百舸AI计算平台5.0」版本，从“网络、算力、推理系统、训推一体”四个方面全面提升AI计算效率。新版本引入昆仑芯超节点技术，显著提升万亿参数模型运行效率，同时优化推理吞吐量与延迟，为企业和开发者提供更高效的AI训练与推理能力。同时发布企业级AI开发平台「千帆4.0」，为开发者提供Agent开发所需要的模型、Agent编排、数据和企业级能力，推动AI基础设施全面升级。

参考：新一代AI云基础设施，全面升级！

行业动态

国务院《关于深入实施“人工智能+”行动的意见》

8月26日，国务院《关于深入实施“人工智能+”行动的意见》，提出加快实施6大重点行动（“人工智能+”科学技术、“人工智能+”产业发展、“人工智能+”消费提质、“人工智能+”民生福祉、“人工智能+”治理能力、“人工智能+”全球合作），强化8项基础支撑能力（提升模型基础能力、加强数据供给创新、强化智能算力统筹、优化应用发展环境、促进开源生态繁荣、加强人才队伍建设、强化政策法规保障、提升安全能力水平）。

参考：国务院关于深入实施“人工智能+”行动的意见

a16z发布「全球Top100消费级GenAI应用榜单」，中国多款产品跻身前20强

8月28日，知名风投机构a16z（Andreessen Horowitz）发布第五期「全球Top100消费级GenAI应用榜单」，覆盖热门的AI网站与移动应用，按照流量和用户活跃度进行排名。榜单显示，AI竞争格局逐渐稳定，中国力量全面崛起，DeepSeek、夸克、豆包、Kimi、Qwen3等多款产品跻身前20强。ChatGPT稳居榜首，谷歌Gemini紧随其后，Grok高速逆袭。整体来看，全球AI正进入多极化竞争的新阶段。

参考：刚刚，全球AI百强榜发布！ChatGPT稳坐第一，DeepSeek第三，前50有22个来自中国

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

[论文阅读]Benchmarking Poisoning Attacks against Retrieval-Augmented Generation

2048 AI社区

GPT-5攻克「量子NP难题」，首篇论文引爆学界！人类2周压缩至30分钟

GPT-5正改写科学发现的规则！一篇重磅论文揭秘，「量子版NP难题」竟被GPT-5在30分钟之内攻克了，然而这要耗费人类1-2周的时间。照这种速度发展下去，AI离完成「诺奖级」突破真的不远了。意想不到的是，这一次，GPT-5又「攻陷」了量子领域的难题。量子计算专家Scott Aaronson首次发表论文，证明其中一个老难题竟被GPT-5助攻破解了。论文中，Scott一直在死磕量子计算中的一个核心问