Qwen3-Coder-Next技术剖析
阿里巴巴通义千问团队发布了专为编程智能体设计的Qwen3-Coder-Next模型,采用混合注意力架构和稀疏MoE技术,总参数800亿但每次推理仅激活30亿参数。该模型在256K超长上下文下保持高效,在SWE-Bench等代码智能体基准测试中超越更大参数量的竞品。通过四阶段训练流程培养长程推理、工具使用和错误恢复能力,支持主流智能体框架集成,提供多种部署方案。其"小身板大码力"
Qwen3-Coder-Next:小身板,大码力,专为 Coding Agent 而来
发布时间:2026 年 2 月
发布团队:阿里巴巴通义千问(Qwen Team)
技术博客:qwen.ai/blog?id=qwen3-coder-next
模型权重:ModelScope | HuggingFace | Kaggle
在线体验:coder.qwen.ai
一、前言:代码智能体时代的效率革命
大模型的代码能力正在经历一次范式转移。从"写代码"到"做开发",从"补全片段"到"驱动整个工程",现代 AI 编程工具需要的不再只是对语法的熟练,而是真正理解任务目标、与执行环境交互、在失败中自主纠错的智能体(Agent)能力。
然而,这种能力此前往往与高昂的推理成本捆绑在一起。庞大的模型参数固然带来强大能力,却使本地部署和持续运行成为奢望。
Qwen3-Coder-Next 正是为打破这一困局而生。它基于 Qwen3-Next-80B-A3B-Base 构建,总参数量达 800 亿,每次推理激活参数仅 30 亿,却在多项代码智能体基准测试中超越了参数量是它 10~20 倍的模型。正如官方所说:小身板,大码力。
二、核心架构:混合注意力 × 极致稀疏 MoE
2.1 整体架构概览
Qwen3-Coder-Next 继承了 Qwen3-Next 系列的 Qwen3-Next 混合架构,将三种机制有机融合:
- Gated DeltaNet(门控线性注意力): O ( n ) O(n) O(n) 线性复杂度,长序列下高效解码
- Gated Attention(门控全精度注意力):在关键层保留传统注意力,确保复杂推理质量
- MoE(混合专家机制):稀疏激活,极大降低单次推理计算量
全模型共 48 层,采用如下交替结构:
12 × (
3 × Gated DeltaNet → MoE
1 × Gated Attention → MoE
)
2.2 详细参数配置
| 配置项 | 参数值 |
|---|---|
| 总参数量 | 800 亿(80B) |
| 非嵌入参数 | 790 亿(79B) |
| 每 Token 激活参数 | 30 亿(3B) |
| 层数 | 48 |
| 隐藏维度 | 2048 |
| 专家总数 | 512 |
| 激活专家数 | 10 个路由 + 1 个共享 |
| 专家中间维度 | 512 |
| 上下文长度 | 262,144 tokens(约 256K) |
Gated Attention 块配置:
| 配置项 | 参数值 |
|---|---|
| Query 头数 | 16 |
| Key/Value 头数 | 2(GQA 分组查询注意力) |
| 头维度 | 256 |
| RoPE 维度 | 64 |
Gated DeltaNet 块配置:
| 配置项 | 参数值 |
|---|---|
| Value 线性注意力头数 | 32 |
| Query/Key 头数 | 16 |
| 头维度 | 128 |
2.3 为什么这种架构对 Coding Agent 特别有效?
代码智能体任务有两个突出特点:
- 超长上下文:需要同时感知整个代码仓库、执行日志、历史对话
- 多步推理:需要规划 → 调用工具 → 观察结果 → 修正,反复迭代
传统全注意力在长序列下复杂度为 O ( n 2 ) O(n^2) O(n2),很快成为瓶颈。Qwen3-Coder-Next 的线性注意力主导、全注意力辅助的分层设计,使得在 256K 上下文下的推理依然保持高效,同时不牺牲关键位置的推理精度。
三、训练范式:智能体优先的规模化训练
3.1 核心理念:扩展训练信号,而非参数规模
不同于靠堆砌参数提升能力的路径,Qwen3-Coder-Next 的核心思路是扩展智能体训练信号。团队构建了约 80 万个可验证的可执行任务,每个任务都配有真实的执行环境,使模型能够直接从环境反馈中学习——而非从静态文本中学习如何写代码。
3.2 四阶段训练流程
阶段 1:代码 & 智能体中心数据上的持续预训练
↓
阶段 2:高质量智能体轨迹的监督微调(SFT)
↓
阶段 3:领域专精专家训练
(软件工程 / QA 测试 / Web & UX 开发)
↓
阶段 4:多专家能力蒸馏 → 单一可部署模型
3.3 三大核心能力培养
通过上述训练流程,模型重点培养了以下在真实编程智能体场景中至关重要的能力:
| 能力 | 说明 |
|---|---|
| 长程推理(Long-Horizon Reasoning) | 跨多个步骤进行任务规划与执行,不丢失上下文状态 |
| 工具使用(Tool Usage) | 原生集成代码执行器、终端命令、搜索接口等外部工具 |
| 错误恢复(Error Recovery) | 从测试失败、运行异常中自主识别原因并完成修正 |
💡 关键设计选择:Qwen3-Coder-Next 仅支持非思考模式(Non-thinking Mode),不生成
<think>...</think>推理块。这对智能体框架集成极为友好,可直接输出工具调用指令,无需解析隐藏推理过程。
四、Benchmark 表现
4.1 代码智能体核心基准
| 评测集 | Scaffold | Qwen3-Coder-Next (3B active) | DeepSeek-V3.2 (671B) | GLM-4.7 (358B) |
|---|---|---|---|---|
| SWE-Bench Verified | SWE-Agent | 70.6 | 70.2 | 74.2 |
| SWE-Bench Multilingual | SWE-Agent | 62.8 | 62.3 | 63.7 |
| SWE-Bench Pro | SWE-Agent | 44.3 | 40.9 | 40.6 |
| Terminal-Bench 2.0 | Terminus-2 JSON | 36.2 | — | — |
| Aider | — | 66.2 | — | — |
4.2 性能解读
这组数据揭示了一个惊人的效率比:
SWE-Bench Pro 得分对比(活跃参数量 vs 得分):
DeepSeek-V3.2 671B active ██████████████████████████ 40.9
GLM-4.7 358B active ██████████████████████████ 40.6
Qwen3-Coder-Next 3B active ████████████████████████████ 44.3 ← 以1/100的算力超越二者
SWE-Bench Verified 70.6% 是特别值得关注的数字——这是在真实软件工程任务(读取 PR Issue → 修改代码 → 通过测试)上的得分,高度贴近生产环境下的开发场景。
4.3 SWE-Bench Pro 多轮推理扩展
Qwen3-Coder-Next 在 SWE-Bench Pro 上随智能体轮数增加而持续提升性能,这直接证明了其长程推理能力的有效性——模型能够在多轮交互中不断积累信息、修正策略,而不是随着对话轮数增加而退化。
五、智能体集成场景
Qwen3-Coder-Next 支持多种主流智能体框架的无缝接入,以下是典型场景:
5.1 IDE 与 CLI 工具链
| 工具 | 集成方式 |
|---|---|
| Qwen Code | 官方终端编程智能体,支持自然语言驱动代码迭代 |
| Claude Code | 通过 OpenAI 兼容接口直接替换后端模型 |
| Cline(VSCode 插件) | 配置本地端点后直接使用 |
| OpenClaw | 支持网页搜索 + 信息收集 + 报告生成的全流程智能体 |
5.2 浏览器与 Web 开发
- Browser Use Agent:自动操作浏览器完成网络信息采集与交互
- Web Dev 模式:自然语言描述 → 完整前端页面代码,支持实时迭代
5.3 典型 Prompt 模式
| 使用场景 | 推荐 Prompt 策略 |
|---|---|
| 代码生成 + 工具调用 | 提供任务上下文、可用工具列表和执行环境说明 |
| 长上下文代码重构 | 在 256K 窗口内放入完整代码库,明确重构目标 |
| 自主调试 | 提供错误日志、调用栈和相关代码,附带失败恢复说明 |
| 多文件代码合成 | 描述架构需求和文件结构预期 |
六、快速部署指南
6.1 服务端部署(SGLang 推荐)
python -m sglang.launch_server \
--model-path Qwen/Qwen3-Coder-Next \
--port 8000 \
--tp-size 4 \
--context-length 262144 \
--tool-call-parser qwen3_coder
6.2 服务端部署(vLLM)
vllm serve Qwen/Qwen3-Coder-Next \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
两种方案均暴露 OpenAI 兼容的
/v1端点,可无缝接入现有智能体工具链。
6.3 本地部署(GGUF / llama.cpp)
对于本地私有部署,Unsloth 提供了 GGUF 量化版本:
| 量化精度 | 所需内存(RAM/统一内存) | 推荐场景 |
|---|---|---|
| 4-bit (Q4) | ~46 GB | 消费级 GPU / Mac Studio |
| 8-bit (Q8) | ~85 GB | 高端工作站 |
# llama.cpp 本地运行示例
llama-server \
-m qwen3-coder-next-Q4_K_M.gguf \
-c 32768 \
--port 8080
6.4 API 调用示例
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY"
)
tools = [
{
"type": "function",
"function": {
"name": "run_code",
"description": "在沙箱环境中执行 Python 代码",
"parameters": {
"type": "object",
"properties": {
"code": {"type": "string", "description": "要执行的 Python 代码"},
"timeout": {"type": "integer", "description": "超时秒数", "default": 30}
},
"required": ["code"]
}
}
}
]
response = client.chat.completions.create(
model="Qwen/Qwen3-Coder-Next",
messages=[
{
"role": "user",
"content": "帮我实现一个二叉树的层序遍历,并添加单元测试确保边界情况覆盖。"
}
],
tools=tools,
tool_choice="auto",
max_tokens=8192,
temperature=0.6,
top_p=0.95
)
print(response.choices[0].message.content)
七、与同类模型的横向对比
SWE-Bench Verified(越高越好):
GLM-4.7 (358B / 358B active) ████████████████████████████████████████████ 74.2
Qwen3-Coder-Next (80B / 3B active) ████████████████████████████████████████████ 70.6 ✅
DeepSeek-V3.2 (671B / 671B active) ████████████████████████████████████████████ 70.2
Claude 4.5 Opus (671B) ████████████████████████████████████████████ 80.9
GPT5.2 ████████████████████████████████████████████ 80.0
注:Qwen3-Coder-Next 以约 1/100 的推理算力匹配 DeepSeek-V3.2 的全模型性能
核心优势对比:
| 维度 | Qwen3-Coder-Next | DeepSeek-V3.2 |
|---|---|---|
| 活跃参数量 | 3B | 671B |
| SWE-Bench Pro | 44.3 | 40.9 |
| 本地部署可行性 | ✅(46GB) | ❌(需多卡) |
| 开源协议 | Apache 2.0 | DeepSeek License |
| 非思考模式 | 原生支持 | 需配置 |
八、总结与展望
Qwen3-Coder-Next 的发布代表了一条清晰的技术路线:通过扩展智能体训练信号,而非盲目增大参数量,来提升模型的实际编程能力。
它的三个核心价值体现在:
- 效率:80B 总参数,3B 激活,实现"大模型知识容量 + 小模型推理成本"的兼顾
- 能力:SWE-Bench Pro 44.3,以极少的计算量超越参数量 100 倍以上的模型
- 实用性:原生支持工具调用、非思考模式直接输出、256K 超长上下文,开箱即用于各类 IDE 和 CLI 智能体
官方已明确表示,未来将继续提升模型的推理与决策能力,扩展支持的任务范围,并根据真实使用场景快速迭代。对于希望在本地或私有环境中构建强大编程智能体的开发者而言,Qwen3-Coder-Next 是目前开源生态中性价比最高的选择之一。
更多推荐


所有评论(0)