阿里:代码大模型Qwen3-Coder-Next
如何在保持极低活跃参数量的前提下,显著提升开源编码大模型的代理式编程能力?论文提出Qwen3-Coder-Next——一个80B总参、仅激活3B参数的MoE架构编码专用模型,通过规模化可执行任务合成、多阶段代理训练与专家蒸馏,实现小足迹下的强代理性能。

📖标题:Qwen3-Coder-Next Technical Report
🌐来源:arXiv, 2603.00729v1
🌟摘要
我们介绍了Qwen3-Coder-Next,这是一个专门用于编码代理的开放权重语言模型。Qwen3-Coder-Next是一个80-billion-parameter模型,它在推理过程中仅激活30亿参数,通过高效的推理实现强大的编码能力。在这项工作中,我们探索了强训练食谱可以在多大程度上推动参数足迹较小的模型的能力极限。为了实现这一点,我们通过与可执行环境配对的可验证编码任务的大规模合成来执行代理训练,允许通过中期训练和强化学习直接从环境反馈中学习。在包括SWE-Bench和Terentor-Bench在内的以代理为中心的基准测试中,Qwen3-Coder-Next相对于其活动参数计数实现了具有竞争力的性能。我们发布了基本版本和指令调整的开放权重版本,以支持研究和现实世界的编码代理开发。
🛎️文章简介
🔸研究问题:如何在保持极低活跃参数量的前提下,显著提升开源编码大模型的代理式编程能力?
🔸主要贡献:论文提出Qwen3-Coder-Next——一个80B总参、仅激活3B参数的MoE架构编码专用模型,通过规模化可执行任务合成、多阶段代理训练与专家蒸馏,实现小足迹下的强代理性能。
📝重点思路
🔸构建大规模可验证任务合成 pipeline:融合GitHub PR挖掘与开源数据集(SWE-Smith等)的可控bug注入,生成超80万条跨9语言、带可运行Docker环境的软件工程任务。
🔸设计云原生执行基础设施MegaFlow:基于Kubernetes的Argo工作流系统,支持千万级并行agent rollout、自动评估与后处理,保障环境反馈驱动训练。
🔸实施三阶段渐进式训练:1)长上下文(262K tokens)代码与仓库级训练;2)高质量SFT对齐指令遵循;3)分领域专家模型(WebDev/UX/SE/RL)训练+统一蒸馏。
🔸创新工具调用泛化训练:在训练中混入21种异构工具模板(XML/JSON/Python等),显式强化格式不变性,解决IDE/CLI部署中的模板过拟合问题。
🔸引入执行反馈闭环优化:采用Mini-SWE-agent进行响应验证、多维偏好排序、奖励黑客行为拦截(如git远程泄露)、工具调用格式token级惩罚等机制。
🔎分析总结
🔸在SWE-Bench Pro等代理基准上,Qwen3-Coder-Next以80A3规模达到与671A3 DeepSeek-V3.2相当甚至更优性能,验证“训练规模>模型规模”的有效性。
🔸跨IDE/CLI模板泛化能力突出:在5类真实开发环境测试中平均模板遵循率达92.7%,远超其他开源模型(最高85.4%),证明多模板训练显著提升鲁棒性。
🔸专家蒸馏有效融合多领域能力:WebDev专家经视觉+交互双验证筛选,UX专家专注工具调用格式,蒸馏后单模型即可覆盖全栈、CLI、QA等场景。
🔸RL训练带来长程能力跃迁:单轮RL使平均agent步数从50增至130,且在HMMT/AIME等数学竞赛题上全面超越Qwen3-Next,体现代码推理迁移性。
🔸安全编码能力扎实:SecCodeBench无提示生成得分61.2%,超越Claude-Opus;PrimeVul-Paired配对检测F1达51.37%,显示对细微漏洞差异的高敏感性。
💡个人观点
论文将“代理能力”解耦为可合成的任务信号、可扩展的执行反馈、可蒸馏的专家知识三要素。
🧩附录


更多推荐

所有评论(0)