SWE-smith: Scaling Data for Software Engineering Agents
摘要:本文提出SWE-smith工具包,用于自动化生成大规模软件工程训练数据。针对现有数据集规模小、构建成本高的问题,SWE-smith通过四种自动缺陷生成策略(语言模型重写、AST修改、PR撤销、缺陷组合),在128个Python代码库中生成5万条任务实例,规模比现有工作大一个数量级。该工具仅需20小时人工投入,显著降低了数据收集成本。基于SWE-smith数据训练的32B参数模型SWE-age
所有评论(0)