昇思MindSpore基于昇腾硬件快速支持Qwen3-Next-80B-A3B系列模型，内附教程4步实现推理！

阿里云发布Qwen3-Next系列大模型，包括80B参数的Thinking和Instruct版本，主打长文本处理与参数效率。该模型通过HybridAttention、High-SparsityMoE等创新技术提升性能，训练成本仅为Qwen3-32B的十分之一。昇思MindSporeAI框架已实现快速支持，提供完整推理部署方案，支持8卡Atlas服务器运行。开发者可通过魔乐社区下载模型（约152GB

昇思MindSpore

422人浏览 · 2025-09-19 10:01:25

昇思MindSpore · 2025-09-19 10:01:25 发布

9月11日，阿里云发布语言大模型Qwen3-Next-80B-A3B-Instruct和Qwen3-Next-80B-A3B-Thinking，昇思MindSpore AI框架在模型开源当日即实现快速支持。昇思MindSpore基于昇腾硬件通过提供主流生态接口，依托MindSpore Transformers套件，快速完成模型无缝迁移，并上传至开源社区，欢迎广大开发者下载体验！

昇思开源社区MindSpore Transformers代码仓：

https://gitee.com/mindspore/mindformers

魔乐社区vLLM-MindSpore推理版地址：

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct

Qwen3-Next，该系列定位为“下一代基础模型”，主打极端上下文长度与参数效率。

架构层面引入了三项核心创新。首先是Hybrid Attention，它使用Gated DeltaNet和Gated Attention替代传统注意力机制，以实现高效的长文本建模。其次是High-Sparsity MoE，将激活比例压缩至1:50，大幅减少了单个token的FLOPs而不损失模型容量。最后是Multi-Token Prediction，在预训练阶段同步预测多个token，从而提升性能并加速推理。此外，模型还辅以zero-centered、weight-decayed layernorm等多项稳定化改进，增强了训练的鲁棒性。

基于这些设计，团队训练并计划开源Qwen3-Next-80B-A3B模型。该模型总参数量为80B，但激活参数仅3B，其训练成本不到Qwen3-32B的十分之一，而在下游任务上的表现却更胜一筹。特别是在32K以上长上下文场景中，其推理吞吐量相比32B基线模型提升超过10倍。

# 01

Qwen3-Next-80B-A3B-Thinking vllm-mindspore 推理指南

1、下载链接

魔乐社区：

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking

2、模型下载。

执行以下命令为自定义下载路径`/mnt/data/Qwen3-Next-80B-A3B-Thinking` 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Thinking

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Thinking 权重文件至指定路径`/mnt/data/Qwen3-Next-80B-A3B-Thinking` 。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 152GB 的磁盘空间，请预留足够空间。

pip install openmind_hub

pythonfrom openmind_hub import snapshot_downloadsnapshot_download(   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking",   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Thinking",   local_dir_use_symlinks=False)exit()

3、快速开始

Qwen3-Next-80B-A3B-Thinking推理需要1台（8卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了Qwen3-Next-80B-A3B-Thinking推理可用的Docker容器镜像，供开发者快速体验。

3.1 停止其他进程，避免服务器中其他进程影响

pkill -9 pythonpkill -9 mindiepkill -9 ray

3.2 下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器

执行以下命令创建并启动容器（/mnt/data/Qwen3-Next-80B-A3B-Thinking用于存放权重路径，若没有/mnt盘则要修改）。

docker run -it \--privileged \--name=Qwen3-Next-80B-A3B-Thinking \--net=host \--cap-add=SYS_PTRACE \--security-opt seccomp=unconfined \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci_manager \-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \-v /usr/local/sbin:/usr/local/sbin \-v /etc/hccn.conf:/etc/hccn.conf \-v /mnt/data/Qwen3-Next-80B-A3B-Thinking/:/mnt/data/Qwen3-Next-80B-A3B-Thinking/ \swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911 \/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

4、服务化部署

4.1 添加环境变量

在服务器中添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormersexport MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务

执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Next-80B-A3B-Thinking" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{  "model": "/mnt/data/Qwen3-Next-80B-A3B-Thinking",  "messages": [    {"role": "user", "content": "介绍一下上海"}  ],  "temperature": 0.6,  "top_p": 0.95,  "top_k": 20,  "min_p": 0,  "max_tokens": 128,  "presence_penalty": 1.05}'

# 02

Qwen3-Next-80B-A3B-Instruct vllm-mindspore 推理指南

1、下载链接

魔乐社区：

https://modelers.cn/models/MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct

2、模型下载

执行以下命令为自定义下载路径`/mnt/data/Qwen3-Next-80B-A3B-Instruct` 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Instruct

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Instruct 权重文件至指定路径`/mnt/data/Qwen3-Next-80B-A3B-Instruct` 。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 152GB 的磁盘空间，请预留足够空间。

pip install openmind_hub

pythonfrom openmind_hub import snapshot_downloadsnapshot_download(   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct",   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Instruct",   local_dir_use_symlinks=False)exit()

3、快速开始

Qwen3-Next-80B-A3B-Instruct推理需要1台（8卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了Qwen3-Next-80B-A3B-Instruct推理可用的Docker容器镜像，供开发者快速体验。

3.1 停止其他进程，避免服务器中其他进程影响

pkill -9 pythonpkill -9 mindiepkill -9 ray

3.2 下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器

执行以下命令创建并启动容器（/mnt/data/Qwen3-Next-80B-A3B-Instruct用于存放权重路径，若没有/mnt盘则要修改）。docker run -it \

--privileged \--name=Qwen3-Next-80B-A3B-Instruct \--net=host \--cap-add=SYS_PTRACE \--security-opt seccomp=unconfined \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci_manager \-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \-v /usr/local/sbin:/usr/local/sbin \-v /etc/hccn.conf:/etc/hccn.conf \-v /mnt/data/Qwen3-Next-80B-A3B-Instruct/:/mnt/data/Qwen3-Next-80B-A3B-Instruct/ \swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911 \/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

4、服务化部署

4.1 添加环境变量

在服务器中都添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormersexport MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务

执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Next-80B-A3B-Instruct" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type:application/json" -d '{  "model": "/mnt/data/Qwen3-Next-80B-A3B-Instruct",  "messages": [    {"role": "user", "content": "介绍一下上海"}  ],  "temperature": 0.6,  "top_p": 0.95,  "top_k": 20,  "min_p": 0,  "max_tokens": 128,  "presence_penalty": 1.05}'

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Conda与Poetry：构建可复现、无冲突的Python环境

2048 AI社区

基于分布式模型预测控制的多智能体点对点过渡轨迹生成研究（Matlab代码实现）

随着多智能体系统（MAS）在无人机编队、自动驾驶车队、机器人协同操作等领域的广泛应用，如何实现高效、安全、协同的点对点轨迹生成成为核心挑战。分布式模型预测控制（DMPC）通过将集中式优化问题分解为局部子问题，结合预测模型与分布式通信机制，为大规模多智能体系统的轨迹规划提供了有效解决方案。本文系统梳理了DMPC在多智能体点对点过渡中的关键技术，包括模型构建、约束处理、协调机制及优化算法，分析了其可扩

2048 AI社区

解读ISO IEC 23053-2022

该摘要概述了ISO/IEC23053-2022标准的核心内容与价值。标准旨在为基于机器学习的AI系统建立统一术语和通用框架，明确区分ML模型与ML系统的概念，并定义系统开发生命周期的关键阶段（需求分析、数据工程、模型训练、系统集成、部署运维等）。其核心价值在于促进AI领域的互操作性、提高透明度、指导风险管理，并为后续细分标准奠定基础。该框架适用于AI项目管理、系统设计、教育培训及政策制定等场景，是