在这里插入图片描述

📖标题:DockSmith: Scaling Reliable Coding Environments via an Agentic Docker Builder
🌐来源:arXiv, 2602.00592v1

🌟摘要

可靠的基于Docker的环境构建是扩展基于执行的培训和评估软件工程代理的主要瓶颈。我们引入了DOCKSMITH,这是一个专门的代理Docker构建器,旨在应对这一挑战。DOCKSMITH不仅将环境构建视为预处理步骤,还将其视为练习长期工具使用、依赖推理和故障恢复的核心代理能力,从而产生超越Docker构建本身的监督。DOCKSMITH接受了大规模的、基于执行的Docker构建轨迹的培训,该轨迹由SWE-Factory风格生成,并增加了循环检测控制器和跨任务成功存储器。在这些轨迹上训练30B-3B模型在Multi-Docker-Eval上实现了开源的最先进性能,失败率为39.72%,提交率为58.28%。此外,DOCKSMITH提高了SWE-bench验证、SWE-bench多语言和终端-Bench 2.0上的分发外性能,展示了环境构建的更广泛代理优势。我们的模型和Docker构建轨迹可在此处公开获得。

🛎️文章简介

🔸研究问题:如何突破Docker环境构建这一长期制约软件工程智能体规模化训练与评估的可靠性瓶颈?
🔸主要贡献:论文提出DOCKSMITH——首个将环境构建显式建模为长程、可验证、执行驱动型智能体任务的专用模型,证明其不仅是预处理步骤,更是具备强迁移能力的核心智能体能力。

📝重点思路

🔸构建多智能体协同的Docker构建流水线,包含上下文检索、Dockerfile生成、评测脚本编写和测试分析四类专业化LLM代理,并引入循环检测控制器防止无效重复修复。
🔸设计跨任务成功记忆机制,复用历史验证通过的Dockerfile与评测脚本组合,作为新仓库的轻量级示范,提升泛化效率。
🔸基于SWE-Factory框架,从15,000+真实GitHub仓库中采集20万高质量、执行反馈驱动的构建轨迹,覆盖20+语言,强调依赖推理与失败恢复过程。
🔸采用三阶段数据精炼:跨语言token级平衡、冗长/低信息轨迹过滤、基于Dockerfile结构复杂度(行数、RUN指令数、包数量)的课程采样策略。
🔸实施联合微调:在Docker构建轨迹基础上,按token比例混合通用软件工程轨迹,兼顾领域专精性与下游任务迁移性。

🔎分析总结

🔸DOCKSMITH在Multi-Docker-Eval上达39.72% Fail-to-Pass与58.28% Commit Rate,创开源模型新高,显著超越37.7%前序上限。
🔸错误分析显示其全面降低各环节错误:Dockerfile生成错误↓46.7%,评测脚本错误↓42.7%,测试分析错误↓50.6%,尤其减少诊断循环与补丁失效。
🔸在SWE-bench Verified、Multilingual及Terminal-Bench 2.0等未参与训练的基准上均获提升,最高+3.37分,验证监督信号可迁移。
🔸消融实验证明:接受塑形(Acceptance Shaping)提升单轨迹质量,复杂度课程采样增强难例覆盖,二者结合效果最优。
🔸联合训练表明:适度混入Docker构建数据(如SWE:Docker=1:0.5)可系统性提升下游任务表现,过度侧重则稀释任务特异性。

💡个人观点

论文将环境构建从“隐性基础设施”提升为“显性智能体能力”,并提出以执行反馈闭环、失败归因建模与跨任务复用为支点。

🧩附录

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐