MIAOYUN | 每周AI新鲜事儿(08.22-08.29)
近期全球AI领域进展密集,Google、NVIDIA、xAI、Kimi、苹果、微软、阿里、腾讯、OpenBMB等企业推出新一代大模型,Qoder、Zulu-CLI、DingTalkA1等多款AI工具也相继亮相,在语音、视频、编程与智能体等方面实现显著突破。市场方面,“人工智能+”行动提供系统支持,AI应用在全球迅速崛起,多款产品跻身全球Top100消费级榜单;一起来回顾本周发生的AI新鲜事儿吧!
近期全球AI领域进展密集,Google、NVIDIA、xAI、Kimi、苹果、微软、阿里、腾讯、OpenBMB等企业推出新一代大模型,Qoder、Zulu-CLI、DingTalkA1等多款AI工具也相继亮相,在语音、视频、编程与智能体等方面实现显著突破。市场方面,“人工智能+”行动提供系统支持,AI应用在全球迅速崛起,多款产品跻身全球Top100消费级榜单;一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
钉钉、通义实验室语音团队联合推出新一代语音识别大模型「Fun-ASR」
8月22日,钉钉、通义实验室语音团队联合宣布推出新一代语音识别大模型「Fun-ASR」,能准确转写各种语音信号,具备识别多行业术语、不同语言与口音的能力,也能结合上下文信息实现更精准的转录,在家装、保险等行业识别准确率提升超15%(保险18%、家装/畜牧15%-20%),并支持企业专属模型定制训练。
参考:钉钉联手通义推出Fun-ASR语音识别大模型,可听懂家居、畜牧等十大行业黑话
月之暗面宣布推出其最新大模型「Kimi-k2-turbo-preview」
8月22日,月之暗面宣布推出其最新大模型「Kimi-k2-turbo-preview」,模型输出速度已经提升至每秒60 Tokens,最高可达每秒100 Tokens。该模型与「KimiK2」参数一致,基于MoE架构(总参数1T、激活32B),在代码生成、智能体调度、数学推理表现出色,目前仍然享受5折特惠价格,每百万Tokens输入价格(缓存命中)仅需2.00元,缓存未命中为8.00元,输出价格为32.00元,9月1日恢复原价。
快手可灵AI发布全新2.1模型,新增「首尾帧功能」
8月22日,快手旗下可灵AI发布全新2.1模型,新增「首尾帧功能」,该功能通过端到端多模态语义推理能力的升级,显著提升首尾帧功能视频生成效果;据评测数据显示,与此前1.6版本相比效果提升235%。该功能还能打造超燃视觉特效,在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现尤为突出。
马斯克xAI开源大模型「Grok 2.5」,6个月后开源「Grok 3」
8月23日,马斯克旗下AI公司xAI宣布开源其大模型「Grok 2.5」,并计划6个月后开源「Grok 3」。用户可通过HuggingFace下载42个文件,大小约500GB,需8块40GB显存GPU配合SGLang 引擎运行。在前一天,马斯克还表示,成立一家名为Macrohard(意为“巨硬”)的新公司,利用AI的力量来对抗微软的软件业务。
参考:刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手
苹果开源长视频多模态大模型「SlowFast-LLaVA-1.5」
8月25日消息,苹果机器学习研究团队近日开源长视频多模态大模型「SlowFast-LLaVA-1.5」,在1B、3B、7B参数规模下均刷新LongVideoBench、MLVU等权威基准测试纪录。该模型通过创新的双流机制(“慢流”与“快流”)和精简的训练框架,实现了高分辨率场景细节与运动变化的有效捕捉,显著降低计算与显存需求。测试显示,即使1B版本也超越竞品,且在知识问答、数学推理、OCR等图像任务中表现优异,实现视频与图像通用理解。
参考:视频大模型创新SlowFast-LLaVA-1.5高效解读长时视频
微软研究院开源创新音频模型「VibeVoice-1.5B」
8月26日,微软研究院开源创新音频模型「VibeVoice-1.5B」,不仅一次性连续合成90分钟超长逼真语音(此前行业极限仅60分钟),更支持4人自然对话、3200倍音频压缩,压缩效率是主流Encodec模型的80倍。「VibeVoice-1.5B」通过首创双tokenizer(声学和语义)协同架构,成功解决传统TTS(文本转语音)音色与语义不匹配难题。
参考:语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率
Google DeepMind发布新一代图像生成与编辑模型「Gemini 2.5 Flash Image」
8月26日,Google DeepMind发布新一代图像生成与编辑模型「Gemini 2.5 Flash Image」(代号“Nano Banana”),并将其整合进Gemini应用的原生图像编辑功能,凭借“角色一致性、基于提示的精准图像编辑、原生世界知识和多图像融合”四大超强能力,被网友称为「最强图像模型」。该模型不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,甚至将二维地图转化为三维景观。凭借Gemini的世界知识与交错生成技术,模型实现了“有记忆”的多轮创作,带来极高一致性与创造力。该模型现已通过Gemini API、Google AI Studio和Vertex AI提供预览,预计数周内推出稳定版本。
参考:谷歌「最强图像模型」横扫一切!3毛钱P图打懵OpenAI,PS要不存在了
OpenBMB开源8B参数的面壁小钢炮「MiniCPM-V 4.5」多模态旗舰模型
8月26日,OpenBMB团队开源8B参数的面壁小钢炮「MiniCPM-V 4.5」多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,兼顾性能与效率;高刷视频理解、图片理解、长视频理解、OCR、文档解析能力同级SOTA,且性能超过「Qwen2.5-VL 72B」达到越级领先;端侧友好,支持长思考、短思考可控混合推理,性能好、速度快。
参考:多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
阿里通义万相发布新一代音频驱动的视频生成模型「Wan2.2-S2V」
8月26日,阿里通义万相发布新一代音频驱动的视频生成模型「Wan2.2-S2V」,仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑电影级数字人视频。模型生成视频时长可达分钟级,可大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。
NVIDIA发布全新混合架构语言模型系列「Jet-Nemotron」
8月26日,NVIDIA发布了一个全新的混合架构语言模型系列「Jet-Nemotron」,包含2B、4B参数版本。该模型提出后神经架构搜索(PostNAS)与新型线性注意力模块(JetBlock),实现从预训练Transformer出发的高效架构优化。相比「Qwen3」、「Gemma3」、「Llama3.2」等模型,「Jet-Nemotron」在数学、代码、常识、检索和长上下文等维度上准确率更高,同时在H100 GPU上推理吞吐量最高提升至53倍。
参考:刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2
腾讯混元开源端到端视频音效生成模型「HunyuanVideo-Foley」
8月28日,腾讯混元发布并开源端到端视频音效生成模型「HunyuanVideo-Foley」,只需输入视频和文字,就能为视频匹配电影级音效。模型采用创新的双流多模态扩散变换器(MMDiT)架构和引入表征对齐(REPA)损失函数,实现多模态语义均衡响应,既能理解视频画面又能结合文字描述生成复合音效,提升音频生成质量和稳定性。该模型在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平
AI 工具
阿里发布新一代Agentic编程平台「Qoder」,编程效率提升10倍以上
8月22日,阿里发布新一代Agentic编程平台「Qoder」,集成全球顶尖编程模型,具备超强的上下文工程能力和自主编程能力,开发效率提升显著,实测数据显示其代码生成准确率领先行业标杆产品13%。「Qoder」支持多种开发模式,包括Ask Mode(问答模式)和Agent Mode(智能体模式),及全新推出的Quest Mode(AI自主编程),可让复杂任务的开发效率提升10倍以上。
参考:新一代Agentic Coding平台Qoder来了!
钉钉发布「钉钉ONE」和首款AI硬件「DingTalkA1」等超10款AI产品
8月25日,钉钉在十周年发布会上,推出「8.0版本」并同步发布AI办公新形态「钉钉ONE」和首款AI硬件「DingTalkA1」等超过10款AI产品。「钉钉ONE」是人与AI对话统一入口,打造全球首个Agent驱动工作信息流,让工作处理如刷短视频般流畅,简化复杂流程、大幅提升信息处理效率。「DingTalkA1」厚3.8mm,支持磁吸固定于手机后壳,搭载6麦克风阵列与骨传导技术,实现8米收音,提供1万分钟免费转写(准确率97%),内置36个Agent模板,可分析通话助力销售。
上海人工智能实验室推出首个大模型数据价值评估开放平台「OpenDataArena」
8月25日,上海人工智能实验室推出首个大模型数据竞技场「OpenDataArena」,一个公平、公开、透明的SFT后训练数据价值评测平台,通过多维度评分和训练评测工具,帮助研究者更有效地筛选高质量数据集,优化数据生成过程,并深入洞察数据特征与模型效果之间的关系。该平台已覆盖4+领域,进行超过20个基准测试,评估超过100个数据集,总样本数超过2000万,并完成600多次模型训练。
参考:告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena
文心快码新增「Zulu-CLI」终端编码功能,开发者效率再升级
8月26日,文心快码升级更新多项功能,包括「Zulu-CLI」、企业版支持自定义模型、一键设置自动执行、复用相同终端、本地代码库知识增强索引支持 SVN 仓库、支持对话中导出生成的图片等。其中「Zulu-CLI」终端编码能力的引入备受开发者关注,该功能允许用户在不离开命令行界面的前提下,通过自然语言指令完成编码任务,极大提升开发效率。
参考:新增Zulu-CLI、企业版对话支持自定义模型、一键设置自动执行、复用相同终端,8月新能力速览!
技术突破
阿里推出「Mobile-Agent-v3」智能体框架,开创GUI自动化新纪元
8月22日,阿里通义实验室发布跨平台多代理框架「Mobile-Agent-v3」,基于「GUI-Owl」(端到端多模态GUI代理基础模型)构建,具备行业领先的规划、进度管理、反思和记忆能力,全面提升用户的GUI自动化体验。作为该框架的基础模型,「GUI-Owl」融合感知、推理、规划、执行等综合能力多项功能,展现出强大的端到端多模态代理能力。
参考:最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
NVIDIA推出新型「NVFP4」量化格式,大模型训练根本性转变
8月26日,NVIDIA推出新型「NVFP4」量化格式,能以4-Bit的速度与效率,实现16-Bit的生产件级训练精度,标志着大语言模型(LLM)开发的重大飞跃,这并非一次简单的渐进式改进,而是一次对大规模模型训练方式的根本性变革。研究显示,使用「NVFP4」的120亿参数模型在万亿级令牌数据集上表现稳定,验证损失曲线与FP8精度模型高度一致,确保了训练的准确性和有效性。此外,「NVFP4」在推理和训练阶段都能显著提高吞吐量。
参考:DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜
字节跳动推出智能体安全框架「Jeddak AgentArmor」, 护航AI Agent安全
8月27日,字节跳动安全研究团队提出了全新的智能体安全框架「Jeddak AgentArmor」,将 AI Agent 运行时的行为轨迹,视为一段可分析、可验证的结构化程序。「AgentArmor」囊括了信任、安全、规则三大类型(跨域互操作的信任建立、对外部攻击的健壮抵御、对用户指令的忠实执行),是AI Agent实现大规模应用的前提。
参考:为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架
百度智能云「百舸AI计算平台5.0」和「千帆4.0」上线,突破算力瓶颈
8月28日,百度智能云在2025云智大会上宣布推出「百舸AI计算平台5.0」版本,从“网络、算力、推理系统、训推一体”四个方面全面提升AI计算效率。新版本引入昆仑芯超节点技术,显著提升万亿参数模型运行效率,同时优化推理吞吐量与延迟,为企业和开发者提供更高效的AI训练与推理能力。同时发布企业级AI开发平台「千帆4.0」,为开发者提供Agent开发所需要的模型、Agent编排、数据和企业级能力,推动AI基础设施全面升级。
行业动态
国务院《关于深入实施“人工智能+”行动的意见》
8月26日,国务院《关于深入实施“人工智能+”行动的意见》,提出加快实施6大重点行动(“人工智能+”科学技术、“人工智能+”产业发展、“人工智能+”消费提质、“人工智能+”民生福祉、“人工智能+”治理能力、“人工智能+”全球合作),强化8项基础支撑能力(提升模型基础能力、加强数据供给创新、强化智能算力统筹、优化应用发展环境、促进开源生态繁荣、加强人才队伍建设、强化政策法规保障、提升安全能力水平)。
a16z发布「全球Top100消费级GenAI应用榜单」,中国多款产品跻身前20强
8月28日,知名风投机构a16z(Andreessen Horowitz)发布第五期「全球Top100消费级GenAI应用榜单」,覆盖热门的AI网站与移动应用,按照流量和用户活跃度进行排名。榜单显示,AI竞争格局逐渐稳定,中国力量全面崛起,DeepSeek、夸克、豆包、Kimi、Qwen3等多款产品跻身前20强。ChatGPT稳居榜首,谷歌Gemini紧随其后,Grok高速逆袭。整体来看,全球AI正进入多极化竞争的新阶段。
更多推荐
所有评论(0)