小参数也能 “卷” 赢大模型？阿里 Qwen3-Coder-Next：编程智能体的效率革命

阿里推出轻量级开源编程模型Qwen3-Coder-Next，采用混合注意力+MoE架构，仅激活3B参数却性能出色。该模型通过智能体专属训练流程提升能力，在多项编程基准测试中表现优异，性能接近更大参数模型。其"性能-效率"平衡突出，适合本地部署编程智能体，可应用于Web开发、终端操作等多种场景。目前已在ModelScope和HuggingFace开源，支持研究和商业用途。

独自归家的兔

1639人浏览 · 2026-02-04 15:41:44

独自归家的兔 · 2026-02-04 15:41:44 发布

最近阿里通义千问团队扔出了个 “轻量猛将”——Qwen3-Coder-Next，一款专门为编程智能体和本地开发设计的开源模型。别瞅它激活参数才 3B，性能却能和一堆大参数模型掰手腕，今天咱们就拆解下这个模型，还得好好扒一扒它的性能数据图～

一、这模型啥来头？—— 轻量但能打的 “编程智能体专属选手”

Qwen3-Coder-Next 是基于 Qwen3-Next-80B-A3B-Base 构建的，但它玩了个巧：用 “混合注意力 + MoE（混合专家模型）” 的新架构，总参数虽然有 80B，但每次推理只激活 3B 参数—— 既压了显存 / 算力成本，又没丢编程能力，专门瞄准 “本地部署的编程智能体” 场景。

二、它咋练这么强？—— 不堆参数，堆 “智能体训练信号”

这模型没走 “参数越堆越大” 的老路，而是靠 “智能体专属训练流程” 提能力：

持续预训练：在 “代码 + 智能体” 数据上打底，夯实编程基础；
监督微调：用真实智能体交互轨迹优化，贴合实际开发；
领域专精训练：针对软件工程、Web 开发等细分领域 “开小灶”；
专家能力蒸馏：把多个领域专家的能力融到一个模型里，兼顾多场景和轻量部署。

关键是：训练全程结合 “可执行环境”—— 模型写的代码能跑起来，错了会从环境反馈里学，不是死记硬背静态代码。

三、数据说话！两张图看透它的实力

咱们重点扒这两张性能图，直接看懂它为啥能打：

这张图是不同模型在 5 个编程智能体核心基准里的得分（越高越好），咱们逐个看 Qwen3-Coder-Next 的表现：

SWE-Bench Verified（权威编程任务）：Qwen3-Coder-Next 拿了 70.6 分，接近 GLM-4.7 的 74.8 分，还比 DeepSeek-V3.2 高一点；
SWE-Bench Multilingual（多语言编程）：62.8 分，和 DeepSeek、GLM 等模型基本持平；
SWE-Bench Pro（更难的编程任务）：44.3 分，是这几个开源模型里的最高分；
TerminalBench 2.0（终端操作任务）：36.2 分，和 DeepSeek-V3.2 的 39.2 分差得不多；
Aider（代码辅助工具测试）：66.2 分，仅次于 DeepSeek 的 69.9 分。

结论：Qwen3-Coder-Next 以 3B 的激活参数，在多个核心编程场景里，性能追平甚至超过更大参数的模型。