继阿里昨天刚发布Qwen3-ASR模型之后,Qwen团队又在社区提交了全新的Qwen3-Next代码。这意味着阿里即将开源Qwen3家族的新成员。这个模型最大的特点是架构变化很大,与此前Qwen系列很不一样。目前,该模型还未正式开源或者发布,我们是从阿里提交的一个介绍文本获取的信息,供大家参考。

阿里即将发布Qwen3-Next-80B-A3B大模型

一、模型基本信息:Qwen3-Next-80B-A3B

根据提交内容显示,即将发布的模型命名为 Qwen3-Next-80B-A3B。该模型采用极为稀疏的混合专家架构(MoE),总参数量达到 800 亿,但每次推理仅激活 30 亿 参数,实现了极高的计算效率。

Qwen3-Next系列是阿里下一代基础模型,其核心设计目标是实现极致的上下文长度和超大规模参数下的高效能。

The Qwen3-Next series represents our next-generation foundation models, optimized for extreme context length and large-scale parameter efficiency.

二、Qwen3-Next-80B-A3B的MoE架构与激进的稀疏策略

此外,这份文本还显示这个MoE的激活比例为1:50,大概率意味着总共有50个专家,每次激活1个,那么一个专家的参数量约为16亿,再加上共享的注意力/嵌入等,每次激活30亿参数是合理的。

1:50 的激活比例在当前主流大模型中极为罕见,属于非常激进的设计策略,显示出阿里在推理效率优化方面的技术信心。

三、Qwen3-Next-80B-A3B性能表现:对比Qwen3-32B的三大优势

尽管目前没有具体的Qwen3-Next-80B-A3B模型的评测数据,但是阿里特别提到Qwen3-Next-80B-A3B与Qwen3-32B模型的对比,有3大优势:

  1. 下游任务性能更强:效果上超越Qwen3-32B稠密模型;
  2. 训练成本大幅降低:不到Qwen3-32B训练成本的 1/10
  3. 长上下文推理吞吐量显著提升:在处理超过32K tokens的长文本时,推理吞吐量比Qwen3-32B 高出10倍以上

阿里特别强调“extreme context length”和长文本下的吞吐量提升,说明Qwen团队很有信心认为Qwen3-Next在架构上可以更好地提升性能和处理更长的上下文。这里需要注意的是,相比较Qwen3-32B模型,这个模型的显存占用是32B模型的2.5倍左右,但是推理速度会显著高于32B版本,如果模型效果更好,那么在当前性能不怎么好的国产算力上,是一个好消息!算是拿空间换时间~

四、Qwen3-Next-80B-A3B核心技术架构创新

相比较当前Qwen3架构,Qwen3-Next的主要技术架构创新包括:

1)、更加激进的稀疏混合专家架构

此前的Qwen3系列模型的激活参数比大约是1:10,而Qwen3-Next达到了1:50,十分激进。高稀疏度意味着模型需要更精准的“路由算法”来决定调用哪个专家,否则性能会下降,阿里可能在路由策略上取得了突破。

2)、采用混合注意力机制 (Hybrid Attention)替代标准的自注意力机制

传统Transformer处理长文本时(比如一本书),需要计算每个字与其他所有字的关联(注意力),计算量随文本长度平方增长,又慢又耗资源。Qwen3-Next引入了两种新机制:

  • Gated Attention:像“主驾驶”,负责抓取关键局部信息,高效直接。
  • Gated DeltaNet(基于SSM):像“副驾驶”,用状态空间模型(SSM)以线性效率建模长期依赖,记住整本书的脉络。

这是对Transformer核心组件的重构,而非小修小补。SSM(状态空间模型)是近年来挑战Transformer的重要方向(如Mamba模型),阿里将其与传统注意力融合,属于 Hybrid 架构的领先实践。说明阿里没有完全押注一个架构,而是通过混合方案平衡效率和性能,更务实也更具扩展性。

3)、 多令牌预测(MTP):从“逐字写”到“逐句写”

Qwen3-Next采用了MTP(Multi-Token Prediction)技术。传统语言模型像“单字打字机”,每次只预测下一个字(token),之后再把生成的字作为输入继续预测,容易出错且效率低。MTP技术让模型在预训练时就练习“一次写多个字”,同时预测后续多个token。这样模型学会了更好的语言规划和长程逻辑,输出更连贯,训练效率也更高。

这是对经典“下一token预测”训练范式的突破,DeepSeek V3 也采用了类似技术,可能成为下一代预训练的标准配置。

五、不止于单一模型:Qwen3-Next 是一个架构系列

阿里将Qwen3-Next称为一个“系列”(series),并强调其代表了一套统一的“架构创新套件”(suite of architectural innovations),而不是单一模型。这意味着Qwen3-Next将是一个系列多个模型,而不仅仅是即将开源的Qwen3-Next-80B-A3B。

原文明确说“replaces standard attention”(取代标准注意力)并引入了“suite of architectural innovations”(一套架构创新)。这不仅仅是微调或改进,而是对Transformer核心组件的替换和重构。它的发布意味着阿里通义千问正在进行一次激进的架构切换,旨在通过一套统一的、高效的、可扩展的混合技术栈,来打造整个下一代模型家族,从而在技术路线和生态竞争上同时取得领先优势。

该系列的发布,将有望在长上下文处理、训练与推理成本、扩展性等多个关键维度树立新的竞争标准,进一步强化阿里在开源大模型领域的领先地位,十分期待它的正式发布。

 AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以点扫描下方👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

​​在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐