Qwen3-Coder-Next:小身板,大码力,专为 Coding Agent 而来

发布时间:2026 年 2 月
发布团队:阿里巴巴通义千问(Qwen Team)
技术博客qwen.ai/blog?id=qwen3-coder-next
模型权重ModelScope | HuggingFace | Kaggle
在线体验coder.qwen.ai


一、前言:代码智能体时代的效率革命

大模型的代码能力正在经历一次范式转移。从"写代码"到"做开发",从"补全片段"到"驱动整个工程",现代 AI 编程工具需要的不再只是对语法的熟练,而是真正理解任务目标、与执行环境交互、在失败中自主纠错的智能体(Agent)能力

然而,这种能力此前往往与高昂的推理成本捆绑在一起。庞大的模型参数固然带来强大能力,却使本地部署和持续运行成为奢望。

Qwen3-Coder-Next 正是为打破这一困局而生。它基于 Qwen3-Next-80B-A3B-Base 构建,总参数量达 800 亿,每次推理激活参数仅 30 亿,却在多项代码智能体基准测试中超越了参数量是它 10~20 倍的模型。正如官方所说:小身板,大码力


二、核心架构:混合注意力 × 极致稀疏 MoE

2.1 整体架构概览

Qwen3-Coder-Next 继承了 Qwen3-Next 系列的 Qwen3-Next 混合架构,将三种机制有机融合:

  • Gated DeltaNet(门控线性注意力): O ( n ) O(n) O(n) 线性复杂度,长序列下高效解码
  • Gated Attention(门控全精度注意力):在关键层保留传统注意力,确保复杂推理质量
  • MoE(混合专家机制):稀疏激活,极大降低单次推理计算量

全模型共 48 层,采用如下交替结构:

12 × (
  3 × Gated DeltaNet → MoE
  1 × Gated Attention → MoE
)

2.2 详细参数配置

配置项 参数值
总参数量 800 亿(80B)
非嵌入参数 790 亿(79B)
每 Token 激活参数 30 亿(3B)
层数 48
隐藏维度 2048
专家总数 512
激活专家数 10 个路由 + 1 个共享
专家中间维度 512
上下文长度 262,144 tokens(约 256K)

Gated Attention 块配置:

配置项 参数值
Query 头数 16
Key/Value 头数 2(GQA 分组查询注意力)
头维度 256
RoPE 维度 64

Gated DeltaNet 块配置:

配置项 参数值
Value 线性注意力头数 32
Query/Key 头数 16
头维度 128

2.3 为什么这种架构对 Coding Agent 特别有效?

代码智能体任务有两个突出特点:

  1. 超长上下文:需要同时感知整个代码仓库、执行日志、历史对话
  2. 多步推理:需要规划 → 调用工具 → 观察结果 → 修正,反复迭代

传统全注意力在长序列下复杂度为 O ( n 2 ) O(n^2) O(n2),很快成为瓶颈。Qwen3-Coder-Next 的线性注意力主导、全注意力辅助的分层设计,使得在 256K 上下文下的推理依然保持高效,同时不牺牲关键位置的推理精度。


三、训练范式:智能体优先的规模化训练

3.1 核心理念:扩展训练信号,而非参数规模

不同于靠堆砌参数提升能力的路径,Qwen3-Coder-Next 的核心思路是扩展智能体训练信号。团队构建了约 80 万个可验证的可执行任务,每个任务都配有真实的执行环境,使模型能够直接从环境反馈中学习——而非从静态文本中学习如何写代码。

3.2 四阶段训练流程

阶段 1:代码 & 智能体中心数据上的持续预训练
         ↓
阶段 2:高质量智能体轨迹的监督微调(SFT)
         ↓
阶段 3:领域专精专家训练
         (软件工程 / QA 测试 / Web & UX 开发)
         ↓
阶段 4:多专家能力蒸馏 → 单一可部署模型

3.3 三大核心能力培养

通过上述训练流程,模型重点培养了以下在真实编程智能体场景中至关重要的能力:

能力 说明
长程推理(Long-Horizon Reasoning) 跨多个步骤进行任务规划与执行,不丢失上下文状态
工具使用(Tool Usage) 原生集成代码执行器、终端命令、搜索接口等外部工具
错误恢复(Error Recovery) 从测试失败、运行异常中自主识别原因并完成修正

💡 关键设计选择:Qwen3-Coder-Next 仅支持非思考模式(Non-thinking Mode),不生成 <think>...</think> 推理块。这对智能体框架集成极为友好,可直接输出工具调用指令,无需解析隐藏推理过程。


四、Benchmark 表现

4.1 代码智能体核心基准

评测集 Scaffold Qwen3-Coder-Next (3B active) DeepSeek-V3.2 (671B) GLM-4.7 (358B)
SWE-Bench Verified SWE-Agent 70.6 70.2 74.2
SWE-Bench Multilingual SWE-Agent 62.8 62.3 63.7
SWE-Bench Pro SWE-Agent 44.3 40.9 40.6
Terminal-Bench 2.0 Terminus-2 JSON 36.2
Aider 66.2

4.2 性能解读

这组数据揭示了一个惊人的效率比:

SWE-Bench Pro 得分对比(活跃参数量 vs 得分):

DeepSeek-V3.2   671B active ██████████████████████████ 40.9
GLM-4.7         358B active ██████████████████████████ 40.6
Qwen3-Coder-Next  3B active ████████████████████████████ 44.3  ← 以1/100的算力超越二者

SWE-Bench Verified 70.6% 是特别值得关注的数字——这是在真实软件工程任务(读取 PR Issue → 修改代码 → 通过测试)上的得分,高度贴近生产环境下的开发场景。

4.3 SWE-Bench Pro 多轮推理扩展

Qwen3-Coder-Next 在 SWE-Bench Pro 上随智能体轮数增加而持续提升性能,这直接证明了其长程推理能力的有效性——模型能够在多轮交互中不断积累信息、修正策略,而不是随着对话轮数增加而退化。


五、智能体集成场景

Qwen3-Coder-Next 支持多种主流智能体框架的无缝接入,以下是典型场景:

5.1 IDE 与 CLI 工具链

工具 集成方式
Qwen Code 官方终端编程智能体,支持自然语言驱动代码迭代
Claude Code 通过 OpenAI 兼容接口直接替换后端模型
Cline(VSCode 插件) 配置本地端点后直接使用
OpenClaw 支持网页搜索 + 信息收集 + 报告生成的全流程智能体

5.2 浏览器与 Web 开发

  • Browser Use Agent:自动操作浏览器完成网络信息采集与交互
  • Web Dev 模式:自然语言描述 → 完整前端页面代码,支持实时迭代

5.3 典型 Prompt 模式

使用场景 推荐 Prompt 策略
代码生成 + 工具调用 提供任务上下文、可用工具列表和执行环境说明
长上下文代码重构 在 256K 窗口内放入完整代码库,明确重构目标
自主调试 提供错误日志、调用栈和相关代码,附带失败恢复说明
多文件代码合成 描述架构需求和文件结构预期

六、快速部署指南

6.1 服务端部署(SGLang 推荐)

python -m sglang.launch_server \
  --model-path Qwen/Qwen3-Coder-Next \
  --port 8000 \
  --tp-size 4 \
  --context-length 262144 \
  --tool-call-parser qwen3_coder

6.2 服务端部署(vLLM)

vllm serve Qwen/Qwen3-Coder-Next \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

两种方案均暴露 OpenAI 兼容的 /v1 端点,可无缝接入现有智能体工具链。

6.3 本地部署(GGUF / llama.cpp)

对于本地私有部署,Unsloth 提供了 GGUF 量化版本:

量化精度 所需内存(RAM/统一内存) 推荐场景
4-bit (Q4) ~46 GB 消费级 GPU / Mac Studio
8-bit (Q8) ~85 GB 高端工作站
# llama.cpp 本地运行示例
llama-server \
  -m qwen3-coder-next-Q4_K_M.gguf \
  -c 32768 \
  --port 8080

6.4 API 调用示例

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_code",
            "description": "在沙箱环境中执行 Python 代码",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {"type": "string", "description": "要执行的 Python 代码"},
                    "timeout": {"type": "integer", "description": "超时秒数", "default": 30}
                },
                "required": ["code"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen3-Coder-Next",
    messages=[
        {
            "role": "user",
            "content": "帮我实现一个二叉树的层序遍历,并添加单元测试确保边界情况覆盖。"
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=8192,
    temperature=0.6,
    top_p=0.95
)
print(response.choices[0].message.content)

七、与同类模型的横向对比

SWE-Bench Verified(越高越好):

GLM-4.7         (358B / 358B active) ████████████████████████████████████████████ 74.2
Qwen3-Coder-Next  (80B /   3B active) ████████████████████████████████████████████ 70.6  ✅
DeepSeek-V3.2   (671B / 671B active) ████████████████████████████████████████████ 70.2
Claude 4.5 Opus               (671B) ████████████████████████████████████████████ 80.9
GPT5.2                              ████████████████████████████████████████████ 80.0

注:Qwen3-Coder-Next 以约 1/100 的推理算力匹配 DeepSeek-V3.2 的全模型性能

核心优势对比:

维度 Qwen3-Coder-Next DeepSeek-V3.2
活跃参数量 3B 671B
SWE-Bench Pro 44.3 40.9
本地部署可行性 ✅(46GB) ❌(需多卡)
开源协议 Apache 2.0 DeepSeek License
非思考模式 原生支持 需配置

八、总结与展望

Qwen3-Coder-Next 的发布代表了一条清晰的技术路线:通过扩展智能体训练信号,而非盲目增大参数量,来提升模型的实际编程能力

它的三个核心价值体现在:

  1. 效率:80B 总参数,3B 激活,实现"大模型知识容量 + 小模型推理成本"的兼顾
  2. 能力:SWE-Bench Pro 44.3,以极少的计算量超越参数量 100 倍以上的模型
  3. 实用性:原生支持工具调用、非思考模式直接输出、256K 超长上下文,开箱即用于各类 IDE 和 CLI 智能体

官方已明确表示,未来将继续提升模型的推理与决策能力,扩展支持的任务范围,并根据真实使用场景快速迭代。对于希望在本地或私有环境中构建强大编程智能体的开发者而言,Qwen3-Coder-Next 是目前开源生态中性价比最高的选择之一。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐