9月11日,阿里云发布语言大模型Qwen3-Next-80B-A3B-Instruct和Qwen3-Next-80B-A3B-Thinking,昇思MindSpore AI框架在模型开源当日即实现快速支持。昇思MindSpore基于昇腾硬件通过提供主流生态接口,依托MindSpore Transformers套件,快速完成模型无缝迁移,并上传至开源社区,欢迎广大开发者下载体验!

昇思开源社区MindSpore Transformers代码仓:

https://gitee.com/mindspore/mindformers

魔乐社区vLLM-MindSpore推理版地址: 

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct

Qwen3-Next,该系列定位为“下一代基础模型”,主打极端上下文长度与参数效率。

架构层面引入了三项核心创新。首先是Hybrid Attention,它使用Gated DeltaNet和Gated Attention替代传统注意力机制,以实现高效的长文本建模。其次是High-Sparsity MoE,将激活比例压缩至1:50,大幅减少了单个token的FLOPs而不损失模型容量。最后是Multi-Token Prediction,在预训练阶段同步预测多个token,从而提升性能并加速推理。此外,模型还辅以zero-centered、weight-decayed layernorm等多项稳定化改进,增强了训练的鲁棒性。

基于这些设计,团队训练并计划开源Qwen3-Next-80B-A3B模型。该模型总参数量为80B,但激活参数仅3B,其训练成本不到Qwen3-32B的十分之一,而在下游任务上的表现却更胜一筹。特别是在32K以上长上下文场景中,其推理吞吐量相比32B基线模型提升超过10倍。

# 01

Qwen3-Next-80B-A3B-Thinking vllm-mindspore 推理指南

1、下载链

魔乐社区:

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking

2、模型下载。

执行以下命令为自定义下载路径`/mnt/data/Qwen3-Next-80B-A3B-Thinking` 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Thinking

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Thinking 权重文件至指定路径`/mnt/data/Qwen3-Next-80B-A3B-Thinking` 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 152GB 的磁盘空间,请预留足够空间。

pip install openmind_hub
pythonfrom openmind_hub import snapshot_downloadsnapshot_download(   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking",   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Thinking",   local_dir_use_symlinks=False)exit()

3、快速开始

Qwen3-Next-80B-A3B-Thinking推理需要1台(8卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-Next-80B-A3B-Thinking推理可用的Docker容器镜像,供开发者快速体验。

3.1 停止其他进程,避免服务器中其他进程影响

pkill -9 pythonpkill -9 mindiepkill -9 ray

3.2 下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令,拉取推理容器镜像:

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器

执行以下命令创建并启动容器(/mnt/data/Qwen3-Next-80B-A3B-Thinking用于存放权重路径,若没有/mnt盘则要修改)。

docker run -it \--privileged \--name=Qwen3-Next-80B-A3B-Thinking \--net=host \--cap-add=SYS_PTRACE \--security-opt seccomp=unconfined \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci_manager \-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \-v /usr/local/sbin:/usr/local/sbin \-v /etc/hccn.conf:/etc/hccn.conf \-v /mnt/data/Qwen3-Next-80B-A3B-Thinking/:/mnt/data/Qwen3-Next-80B-A3B-Thinking/ \swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911 \/bin/bash

注意事项:

  • 后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。

4、服务化部署

4.1 添加环境变量

在服务器中添加如下环境变量:

export vLLM_MODEL_BACKEND=MindFormersexport MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务

执行以下命令拉起服务:

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Next-80B-A3B-Thinking" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试

打开新的窗口,执行以下命令发送推理请求测试。​​​​​​​

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{  "model": "/mnt/data/Qwen3-Next-80B-A3B-Thinking",  "messages": [    {"role": "user", "content": "介绍一下上海"}  ],  "temperature": 0.6,  "top_p": 0.95,  "top_k": 20,  "min_p": 0,  "max_tokens": 128,  "presence_penalty": 1.05}'

# 02

Qwen3-Next-80B-A3B-Instruct vllm-mindspore 推理指南

1、下载链接

魔乐社区:

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct

2、模型下载

执行以下命令为自定义下载路径`/mnt/data/Qwen3-Next-80B-A3B-Instruct` 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Instruct

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Instruct 权重文件至指定路径`/mnt/data/Qwen3-Next-80B-A3B-Instruct` 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 152GB 的磁盘空间,请预留足够空间。

pip install openmind_hub
pythonfrom openmind_hub import snapshot_downloadsnapshot_download(   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct",   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Instruct",   local_dir_use_symlinks=False)exit()

3、快速开始

Qwen3-Next-80B-A3B-Instruct推理需要1台(8卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-Next-80B-A3B-Instruct推理可用的Docker容器镜像,供开发者快速体验。

3.1 停止其他进程,避免服务器中其他进程影响

pkill -9 pythonpkill -9 mindiepkill -9 ray

3.2 下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令,拉取推理容器镜像:

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器

执行以下命令创建并启动容器(/mnt/data/Qwen3-Next-80B-A3B-Instruct用于存放权重路径,若没有/mnt盘则要修改)。docker run -it \

--privileged \--name=Qwen3-Next-80B-A3B-Instruct \--net=host \--cap-add=SYS_PTRACE \--security-opt seccomp=unconfined \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci_manager \-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \-v /usr/local/sbin:/usr/local/sbin \-v /etc/hccn.conf:/etc/hccn.conf \-v /mnt/data/Qwen3-Next-80B-A3B-Instruct/:/mnt/data/Qwen3-Next-80B-A3B-Instruct/ \swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911 \/bin/bash

注意事项:

  • 后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。

4、服务化部署

4.1 添加环境变量

在服务器中都添加如下环境变量:

export vLLM_MODEL_BACKEND=MindFormersexport MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务

执行以下命令拉起服务:

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Next-80B-A3B-Instruct" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试

打开新的窗口,执行以下命令发送推理请求测试。

​​​​​​​

curl http://localhost:8000/v1/chat/completions -H "Content-Type:application/json" -d '{  "model": "/mnt/data/Qwen3-Next-80B-A3B-Instruct",  "messages": [    {"role": "user", "content": "介绍一下上海"}  ],  "temperature": 0.6,  "top_p": 0.95,  "top_k": 20,  "min_p": 0,  "max_tokens": 128,  "presence_penalty": 1.05}'
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐