MIAOYUN | 每周AI新鲜事儿(07.25-08.01)
本周AI领域动态密集,多家科技巨头发布创新成果:阶跃星辰发布全尺寸多模态模型「Step3」;腾讯开源3D世界生成模型;商汤推出多模态思维链技术新模型;阿里开源高效视频生成模型;智谱发布专为智能体设计的「GLM-4.5」。技术突破方面,DeepSeek提出原生稀疏注意力技术使长文本处理提速11倍,群核科技发布首个3D高斯语义数据集。同时,京东云、字节跳动等企业纷纷开源智能体平台,OpenAI推出引导
人工智能领域的发展态势迅猛,创新成果应接不暇,MIAOYUN「每周AI新鲜事儿」,精选全球AI领域最新动态,涵盖新模型发布、AI产品及工具、技术突破与行业趋势等,助力洞察行业机遇,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
阶跃星辰发布新一代基础大模型「Step 3」
7月25日,阶跃星辰正式发布了新一代基础大模型「Step 3」,是阶跃星辰首个全尺寸、原生多模态推理模型,兼顾模型效果与推理成本,在MMMU等多个榜单上取得了SOTA成绩。「Step 3」采用MoE架构,总参数量321B,激活参数量38B,通过系统架构创新实现高推理效率,在国产芯片上的推理效率最高可达DeepSeek-R1的300%,将于7月31日全球开源。
腾讯混元发布并开源「混元3D世界模型 1.0」
7月27日,腾讯混元发布并开源「混元3D世界模型 1.0」。这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,支持文字或图片输入,几分钟内生成完整3D场景,兼容主流引擎(如Unreal、Unity),适用于游戏开发、VR、数字内容创作等领域。除3D世界模型外,腾讯混元还披露了后续将开源多款模型,包括端侧混合推理语言模型、多模态理解模型及游戏视觉模型等。
商汤科技发布「日日新SenseNova V6.5」大模型体系
7月27日,商汤科技发布了全新「日日新Sensenova 6.5」大模型体系,通过突破性的图文交错多模态思维链技术,实现了文本与图像的交错融合推理,性能超越Gemini 2.5 Pro和Claude-4 Sonnet。同时,商汤还改进了多模态模型的融合架构,性价比提升超旧版3倍,推动AI从“生产力工具”向“生产力”跃迁。基于该模型,「商汤小浣熊」智能体全面升级,能够处理复杂表格、截图等非结构化数据,并支持端到端分析生成可视化报告。
阿里开源视频生成模型通义万相「Wan2.2」
7月28日,阿里开源视频生成模型通义万相「Wan2.2」,包括文生视频「Wan2.2-T2V-A14B」、图生视频「Wan2.2-I2V-A14B」和统一视频生成「Wan2.2-IT2V-5B」三款模型。其中,文生视频模型和图生视频模型为业界首个使用MoE架构的视频生成模型,总参数27B,激活参数14B,可节省约50%的计算资源消耗,支持复杂运动生成、人物交互、美学表达等。5B版本统一视频生成模型同时支持文生视频和图生视频,可在消费级显卡部署,是目前24帧每秒、720P像素级的生成速度最快的基础模型。
智谱发布新一代旗舰模型「GLM-4.5」,面向推理、代码与智能体的基础模型
7月28日,智谱发布新一代旗舰模型「GLM-4.5」,是专为智能体应用打造的基础模型。「GLM-4.5」首次在单个模型中实现将推理、编码和智能体能力原生融合,综合能力达到开源SOTA。该模型采用混合专家(MoE)架构,总参数量 3550亿,激活参数320亿;有「思考模式」和「非思考模式」双模式,具备极高性价比(输入0.8元/百万tokens)与生成速度(最高100 tokens/秒),支持全栈Agent开发、网页生成、PPT制作等多功能。
NVIDIA开源「Llama Nemotron Super v1.5」模型
7月29日,NVIDIA推出开源模型「Llama Nemotron Super v1.5」,专为复杂推理和Agent任务设计,将吞吐量提升至前代的3倍,支持单卡高效运行,并在科学、数学、编程等任务中实现SOTA性能。该模型采用神经架构搜索(NAS)技术,结合模块蒸馏技术,针对单卡运行场景做了结构简化、知识蒸馏训练与后训练,兼顾高准确性、高吞吐量与低资源占用。
昆仑万维开源类GPT-4o多模态统一模型「Skywork UniPic」
7月30日,昆仑万维正式推出并开源多模态统一预训练模型「Skywork UniPic」,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。模型采用自回归模型(Autoregressive Model)架构,与GPT-4o的技术路线一脉相承;模型基于大规模高质量数据进行端到端预训练,具备良好的通用性与可迁移性。
Google DeepMind推出「AlphaEarth Foundations」模型
7月30日, Google DeepMind推出「AlphaEarth Foundations」模型,通过将海量地球观测数据整合为计算机可轻松处理的统一数字表征(即「嵌入向量」),实现了对全球陆地及沿海水域的精准高效刻画。系统整合光学卫星图像、雷达扫描、3D 激光测绘、气候模拟等多种数据,以10×10米超高精度分析全球陆地及近海,所需存储空间减少了16倍。该模型解决了数据过载和信息不一致两大核心难题,将为科学家提供近乎实时的地球观测。
阿里云通义千问更新三款「Qwen3」家族最新模型
7月30日至8月1日,阿里云通义千问团队更新了三款「Qwen3」家族最新模型,分别是「Qwen3-30B-A3B-Instruct-2507」、「Qwen3-30B-A3B-Thinking-2507」、「Qwen3-Coder-30B-A3B-Instruct」。
「Qwen3-30B-A3B-Instruct-2507」是一个非思考模式的新模型,仅激活3B参数,性能就超越GPT-4o,在指令遵循、逻辑推理、数学计算和代码编程等通用能力大幅提升,支持256K的长文本处理,适合多语言理解与生成。
「Qwen3-30B-A3B-Thinking-2507」推理版本,聚焦数学和代码能力,在AIME25测试中得分85,LiveCodeBench V6得分66,核心推理能力超越了旧版(235B系列),原生支持256K上下文,可扩展至1M tokens。
「Qwen3-Coder-30B-A3B-Instruct」快如闪电,拥有卓越的Agentic调用能力和仓库级上下文理解(原生支持256K tokens,支持YaRN可扩展至 1M tokens),并支持多平台使用。
AI Agent
京东云发布100%开源企业级智能体「JoyAgent」
7月26日,京东云正式开源「JoyAgent」智能体,成为行业首个100%开源的企业级智能体,实现了产品级开源,包括前端、后端、框架、引擎和核心子智能体,支持本地独立部署。「JoyAgent」在GAIA榜单上的Validation集准确率达到 75.15%,并支持多种智能体协同和工具应用,已在内部经过超2万个实践场景验证。其独特的设计包括双层级规划架构、文件系统与内存混合的上下文管理以及工具的自动进化机制,显著降低了企业 AI 的使用门槛。
上智院复旦无限光年联合发布「星河启智科学智能开放平台」
7月26日,上海科学智能研究院联合复旦大学、无限光年共同发布「星河启智科学智能开放平台」(NovaInspire: Scientist-Centered AI Open Platform)。该平台定位为以科学家为中心的智能体原生全链路科学智能开放平台,面向全球科研人员提供覆盖高价值科学数据、开源科学模型、面向科研领域的高效智算、干湿实验闭环、多智能体推理规划以及多学科众研在内的全栈基础设施,旨在打造科学智能2.0时代的“最强大脑”。
字节跳动开源「Coze Studio」(扣子开发平台)和「Coze Loop」(扣子罗盘)
7月26日,字节跳动宣布其AI Agent开发平台「Coze」将核心能力正式开源,覆盖「Coze Studio」(扣子开发平台)和「Coze Loop」(扣子罗盘)两大核心项目,采用Apache 2.0许可证,支持免费商用及本地化部署。「Coze」是新一代AI Agent平台,旗下有四款子产品:「coze.cn」(扣子空间)、「Coze Studio」(扣子开发平台)、「Coze Loop」(扣子罗盘) 及 「Eino」。「Coze Studio」提供可视化低代码开发工具,支持拖拽式工作流编排,集成Prompt调试、插件调用等功能;「Coze Loop」聚焦智能体全生命周期管理,涵盖自动化评测、性能监控等运维能力。
阶跃星辰宣布「阶跃AI」新增功能「阶跃深研」
7月28日,阶跃星辰宣布「阶跃AI」新增功能「阶跃深研」,基于端到端自主强化学习和多Agent架构(Multi-Agent)研发,具备自主思考、推理、动态完成工具调用,以完成真实世界复杂任务的能力。「阶跃深研」能够在约十分钟内完成复杂问题的自主研究,生成专业的研究报告,适用于金融、咨询、医疗、法律、政策及学术等多个领域。
AI 工具
阿里云推出「无影AgentBay」,专为AI Agents打造的“超级大脑”
7月28日,阿里云正式推出了首款专为AI Agents打造的“超级大脑”「无影AgentBay」。这台云端电脑不仅能执行代码运行、网页浏览、数据分析、程序开发、表格制作等基础任务,还具备视觉理解、自然语言控制、任务解析等多项AI技能;可在多个系统无缝切换,随时调用资源,用户只需三行代码即可接入。
OpenAI推出ChatGPT新功能「学习模式」
7月30日,OpenAI上线ChatGPT新功能「学习模式」,通过苏格拉底式逐步引导教学,帮助用户主动思考,深入理解复杂概念,而非直接提供答案。该模式功能包括交互提示、分步解答和个性化支持,目前已向免费用户开放,ChatGPT Edu版本将于未来几周上线。
大模型工具Ollama 上线「可视化图形界面」
7月31日,大模型工具 Ollama 0.10.1版本正式上线「可视化图形界面」,同步支持Mac和Windows,解决非技术人员使用门槛问题。 新版本提供更简单的对话界面,支持下载模型、与PDF和文档对话、多模态对话(内置新的多模态引擎,支持发送图片给大语言模型)和文档编写功能。
技术突破
群核科技发布全球首个适用于智能体自由运动的大规模3D数据集「InteriorGS」
7月25日,群核科技发布最新高质量3D高斯语义数据集「InteriorGS」,是全球首个适用于智能体自由运动的大规模3D数据集,包含1000个3D高斯语义场景,涵盖超80种室内环境,赋予智能体一个“空间大脑”,以提高其环境理解和交互能力。该数据集借助“3D高斯溅射+自研空间大模型SpatialLM+物理仿真”训练数据生成新路径,打通“现实-虚拟-现实”闭环,有望突破Sim2Real(从仿真到现实)难题。
国产全自研GPU问世,砺算科技发布首款GPU芯片「7G100」系列
7月26日,砺算科技发布首款6nm工艺全自研GPU芯片「7G100」系列和首款显卡产品「Lisuan eXtreme」系列。作为一款全自研高性能图形GPU,砺算「7G100」系列GPU从指令集到计算核心完全由自主设计,基于自研TrueGPU天图架构,采用6nm先进制程工艺,并自研指令集、自研软件栈,非市场中常见的通过采购 Imagination等现成IP授权,完全掌握着 GPU 架构的自主权。砺算「7G100」系列GPU以效率、平衡、拓展为重,多重性能优势达到国际主流、国内领先水平。
全球首个多模态AI记忆系统「MIRIX」发布并开源
7月29日消息,近期加利福尼亚大学和纽约大学的研究团队联合推出并开源「MIRIX」,是全球首个开源的多模态、多智能体AI记忆系统,突破了传统AI的短期记忆限制,实现了多模块的长期记忆管理,在ScreenshotVQA 基准上的准确率比传统RAG方法高出35%,存储开销降低 99.9%。「MIRIX」包括核心记忆、情景记忆、语义记忆等六个模块,能够为用户提供个性化的AI助理体验。团队同步上线了一款桌面端APP,可直接下载使用,构建专属于自己的AI个人助理。
DeepSeek新技术:「NSA」原生稀疏注意力机制,使长文本处理速度提升11倍
7月30日,全球自然语言处理领域的顶级会议ACL公布了今年的最佳论文:由 DeepSeek 和北京大学联合完成的论文《Native Sparse Attention》。论文提出的「NSA」(Natively Sparse Attention,原生稀疏注意力)技术,通过算法与硬件的协同优化,使长文本处理速度提升了11倍,且性能超越了传统全注意力模型。「NSA」技术已完成27B、MoE架构上的完整预训练验证,通过三种阅读策略(压缩块、选择性精读、滑动窗口)和门控机制,被视为DeepSeek R2模型的核心技术预演。
更多推荐
所有评论(0)