昇思MindSpore基于昇腾硬件快速支持Qwen3-Next-80B-A3B系列模型,内附教程4步实现推理!
阿里云发布Qwen3-Next系列大模型,包括80B参数的Thinking和Instruct版本,主打长文本处理与参数效率。该模型通过HybridAttention、High-SparsityMoE等创新技术提升性能,训练成本仅为Qwen3-32B的十分之一。昇思MindSporeAI框架已实现快速支持,提供完整推理部署方案,支持8卡Atlas服务器运行。开发者可通过魔乐社区下载模型(约152GB
9月11日,阿里云发布语言大模型Qwen3-Next-80B-A3B-Instruct和Qwen3-Next-80B-A3B-Thinking,昇思MindSpore AI框架在模型开源当日即实现快速支持。昇思MindSpore基于昇腾硬件通过提供主流生态接口,依托MindSpore Transformers套件,快速完成模型无缝迁移,并上传至开源社区,欢迎广大开发者下载体验!
昇思开源社区MindSpore Transformers代码仓:
https://gitee.com/mindspore/mindformers
魔乐社区vLLM-MindSpore推理版地址:
https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking
https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct
Qwen3-Next,该系列定位为“下一代基础模型”,主打极端上下文长度与参数效率。
架构层面引入了三项核心创新。首先是Hybrid Attention,它使用Gated DeltaNet和Gated Attention替代传统注意力机制,以实现高效的长文本建模。其次是High-Sparsity MoE,将激活比例压缩至1:50,大幅减少了单个token的FLOPs而不损失模型容量。最后是Multi-Token Prediction,在预训练阶段同步预测多个token,从而提升性能并加速推理。此外,模型还辅以zero-centered、weight-decayed layernorm等多项稳定化改进,增强了训练的鲁棒性。
基于这些设计,团队训练并计划开源Qwen3-Next-80B-A3B模型。该模型总参数量为80B,但激活参数仅3B,其训练成本不到Qwen3-32B的十分之一,而在下游任务上的表现却更胜一筹。特别是在32K以上长上下文场景中,其推理吞吐量相比32B基线模型提升超过10倍。
# 01
Qwen3-Next-80B-A3B-Thinking vllm-mindspore 推理指南
1、下载链接
魔乐社区:
https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking
2、模型下载。
执行以下命令为自定义下载路径`/mnt/data/Qwen3-Next-80B-A3B-Thinking` 添加白名单。
export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Thinking
执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Thinking 权重文件至指定路径`/mnt/data/Qwen3-Next-80B-A3B-Thinking` 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 152GB 的磁盘空间,请预留足够空间。
pip install openmind_hub
python
from openmind_hub import snapshot_download
snapshot_download(
repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking",
local_dir="/mnt/data/Qwen3-Next-80B-A3B-Thinking",
local_dir_use_symlinks=False
)
exit()
3、快速开始
Qwen3-Next-80B-A3B-Thinking推理需要1台(8卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-Next-80B-A3B-Thinking推理可用的Docker容器镜像,供开发者快速体验。
3.1 停止其他进程,避免服务器中其他进程影响
pkill -9 python
pkill -9 mindie
pkill -9 ray
3.2 下载昇思 MindSpore 推理容器镜像
执行以下 Shell 命令,拉取推理容器镜像:
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911
3.3 启动容器
执行以下命令创建并启动容器(/mnt/data/Qwen3-Next-80B-A3B-Thinking用于存放权重路径,若没有/mnt盘则要修改)。
docker run -it \
--privileged \
--name=Qwen3-Next-80B-A3B-Thinking \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/Qwen3-Next-80B-A3B-Thinking/:/mnt/data/Qwen3-Next-80B-A3B-Thinking/ \
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911 \
/bin/bash
注意事项:
-
后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。
4、服务化部署
4.1 添加环境变量
在服务器中添加如下环境变量:
export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off
4.2 拉起服务
执行以下命令拉起服务:
python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Next-80B-A3B-Thinking" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9
4.3 执行推理请求测试
打开新的窗口,执行以下命令发送推理请求测试。
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "/mnt/data/Qwen3-Next-80B-A3B-Thinking",
"messages": [
{"role": "user", "content": "介绍一下上海"}
],
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"min_p": 0,
"max_tokens": 128,
"presence_penalty": 1.05
}'
# 02
Qwen3-Next-80B-A3B-Instruct vllm-mindspore 推理指南
1、下载链接
魔乐社区:
https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct
2、模型下载
执行以下命令为自定义下载路径`/mnt/data/Qwen3-Next-80B-A3B-Instruct` 添加白名单。
export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Instruct
执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Instruct 权重文件至指定路径`/mnt/data/Qwen3-Next-80B-A3B-Instruct` 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 152GB 的磁盘空间,请预留足够空间。
pip install openmind_hub
python
from openmind_hub import snapshot_download
snapshot_download(
repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct",
local_dir="/mnt/data/Qwen3-Next-80B-A3B-Instruct",
local_dir_use_symlinks=False
)
exit()
3、快速开始
Qwen3-Next-80B-A3B-Instruct推理需要1台(8卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-Next-80B-A3B-Instruct推理可用的Docker容器镜像,供开发者快速体验。
3.1 停止其他进程,避免服务器中其他进程影响
pkill -9 python
pkill -9 mindie
pkill -9 ray
3.2 下载昇思 MindSpore 推理容器镜像
执行以下 Shell 命令,拉取推理容器镜像:
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911
3.3 启动容器
执行以下命令创建并启动容器(/mnt/data/Qwen3-Next-80B-A3B-Instruct用于存放权重路径,若没有/mnt盘则要修改)。docker run -it \
--privileged \
--name=Qwen3-Next-80B-A3B-Instruct \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/Qwen3-Next-80B-A3B-Instruct/:/mnt/data/Qwen3-Next-80B-A3B-Instruct/ \
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911 \
/bin/bash
注意事项:
-
后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。
4、服务化部署
4.1 添加环境变量
在服务器中都添加如下环境变量:
export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off
4.2 拉起服务
执行以下命令拉起服务:
python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Next-80B-A3B-Instruct" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9
4.3 执行推理请求测试
打开新的窗口,执行以下命令发送推理请求测试。
curl http://localhost:8000/v1/chat/completions -H "Content-Type:
application/json" -d '{
"model": "/mnt/data/Qwen3-Next-80B-A3B-Instruct",
"messages": [
{"role": "user", "content": "介绍一下上海"}
],
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"min_p": 0,
"max_tokens": 128,
"presence_penalty": 1.05
}'
更多推荐
所有评论(0)