谁是最佳AI编码助手?5款主流工具的任务分层实证研究揭晓

论文信息

  • 原标题:Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance
  • 主要作者及研究机构:Giovanni Pinna(意大利特里埃斯特大学)、Jingzhi Gong(英国伦敦国王学院)、David Williams(英国伦敦大学学院)、Federica Sarro(英国伦敦大学学院)
  • 引文格式(GB/T 7714):Pinna G,Gong J,Williams D,et al. Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance[C]//23rd International Conference on Mining Software Repositories (MSR ’26). Rio de Janeiro: ACM,2026.
  • 发表会议:2026年第23届挖掘软件仓库国际会议(MSR ’26)

一段话总结

这篇发表于MSR ’26的实证研究分析了AIDev数据集中5款主流AI编码代理(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)的7156个拉取请求(PR),通过时间趋势分析任务分层对比探究其PR接受率表现,发现Devin是唯一呈现持续正向性能趋势的代理(32周内每周接受率提升0.77%),任务类型是影响PR接受率的主导因素(不同任务间接受率差距达29个百分点,文档类82.1%远高于新功能类66.1%),且无单一代理在所有任务类型中表现最优:OpenAI Codex在各任务中接受率均保持较高水平(59.6%–88.6%),Claude Code在文档和新功能任务中领先,Cursor则在修复类任务中表现突出;研究还指出全局性能指标易受任务分布混杂影响,任务分层对比应成为AI编码代理评估的标准方法,同时PR接受率无法完全代表代码质量,需结合其他指标综合评价。

在这里插入图片描述

研究背景

AI编码助手的爆发式发展正在重构软件工程的工作模式,从最初的GitHub Copilot代码补全,到Devin、Cursor这类能自主生成函数、修复Bug、创建拉取请求(PR)的自治代理,软件工程正式迈入了“SE 3.0”时代——AI成为只需少量人类监督就能完成复杂开发任务的自治队友。

但在行业快速发展的背后,核心评估问题始终悬而未决:不同AI编码代理在实际开发流程中的效果到底如何对比?哪些因素会影响它们的性能?性能是否会随时间发生变化?

更关键的是,传统的全局性能指标(如整体PR接受率)存在严重的评估误区。举个例子,若A代理主要处理高接受率的文档编写任务,B代理专注于复杂的新功能开发,仅看全局指标会误以为A远优于B,却忽略了二者的任务难度差异。这种因任务分布混杂导致的评估偏差,让开发者选工具、研究者做评估、工具商做优化都缺乏可靠依据,这也是该领域亟待解决的核心痛点。

创新点

  1. 时间维度的长期追踪:首次对5款主流AI编码代理进行了跨周期的性能演变分析,最长观测窗口达32周,揭示了不同代理的性能时间变化规律。
  2. 任务分层的评估方法:提出并实践了任务分层对比法,打破传统全局指标的评估误区,控制任务分布混杂的干扰,让不同代理的性能对比更客观。
  3. 多维度的实证分析:结合PR接受率、评审频率、任务分布偏移等多维度指标,不仅对比了代理性能,还探究了性能差异的核心影响因素,为领域研究提供了可复用的实证框架。
  4. 大样本的真实场景验证:基于7156个来自真实高星GitHub仓库的AI生成PR展开分析,样本覆盖5款代理、12类开发任务,研究结论更贴近工业界实际应用场景。

研究方法和思路

本次研究围绕3个核心研究问题(RQ) 展开,通过数据筛选-指标定义-统计分析-结果验证的四步思路完成实证研究,整体方法可拆解为以下关键步骤:

步骤1:数据集选取与预处理

选用AIDev数据集的高星仓库子集(AIDev-POP,仓库星数≥100),原始数据包含33596个AI生成PR,通过3条质量标准筛选出7156个有效PR:

  1. 仅保留已关闭的PR,排除未处理的无效样本;
  2. 仅选取采用MIT/Apache-2.0宽松许可证的仓库,保证数据可用性;
  3. 要求每个PR在关闭前至少有1条非创建者的评审/评论,确保PR经过了实际人工评估。

最终样本覆盖5款主流AI编码代理,各代理的观测窗口、PR数量等基础信息如下:

代理 观测起始时间 有效PR数 活跃周数 周均PR数 整体PR接受率
Devin 2024-12-24 2252 32 70.4 61.6%
OpenAI Codex 2025-05-16 2002 12 166.8 77.9%
GitHub Copilot 2025-05-19 2194 11 199.5 68.0%
Cursor 2025-05-01 569 13 43.8 74.5%
Claude Code 2025-02-24 139 19 7.3 71.9%

步骤2:核心指标与统计方法定义

  1. 核心评估指标:以PR接受率(合并PR占已关闭PR的比例)为核心成功指标,同时引入评审频率(单PR的人工评审次数)、任务分层观测(代理-任务-周的唯一组合)为辅助指标;
  2. 时间趋势分析:用线性回归拟合代理每周PR接受率的变化,通过R²衡量拟合度,同时用LOESS局部平滑法捕捉非线性趋势;
  3. 代理对比分析:采用分层卡方检验做代理间两两对比,对小样本场景用Fisher精确检验,通过Bonferroni校正控制多重检验误差,用phi系数衡量性能差异的效应大小;
  4. 敏感性验证:为解决不同代理观测窗口不一致的问题,选取所有代理的11周共同观测窗口重复分析,验证结果的稳定性。

步骤3:分研究问题开展分析

针对3个核心研究问题,分别设计针对性分析方案:

  • RQ1(性能时间演变):拟合各代理的PR接受率时间趋势,对比线性变化斜率与稳定性;
  • RQ2(性能影响因素):统计12类任务的PR接受率,分析任务类型的影响,同时探究评审频率与接受率的相关性;
  • RQ3(代理性能对比):先分析各代理的任务分布差异,再通过任务分层法对比不同代理在同类任务中的性能,筛选出统计上显著的性能差异。

主要成果和贡献

本次研究通过对7156个有效PR的全面分析,明确回答了3个核心研究问题,同时为AI编码代理的评估、选择和优化提供了可落地的实证结论,核心成果和领域贡献如下:

一、3大研究问题的核心结论

研究问题 核心分析内容 直白结论
RQ1:AI编码代理性能是否随时间演变? 拟合32周内各代理PR接受率的时间趋势,分析斜率与稳定性 仅Devin呈现持续正向性能演变(每周接受率+0.77%,从60%升至80%),其余4款代理性能全程保持稳定,无明显上升/下降趋势
RQ2:哪些因素与代理性能相关? 统计12类任务的PR接受率,分析任务分布、评审频率的影响 任务类型是主导因素(不同任务接受率差距达29个百分点),评审频率与接受率存在关联但无因果;全局指标易受任务分布混杂,评估偏差大
RQ3:不同代理性能如何对比? 任务分层下的代理两两对比,筛选统计显著的性能差异 无单一代理在所有任务中最优,各代理有专属任务优势;性能差异在修复、新功能等核心开发任务中最显著

二、研究的核心发现

  1. 任务类型的影响远超代理差异:不同开发任务的PR接受率差距达29个百分点,杂项类(84.0%)、文档类(82.1%)接受率最高,性能优化类(55.4%)最低;文档类比新功能类接受率高16个百分点,该差距超过了大多数任务中代理间的性能差异。
  2. 各代理的任务专属优势明确:任务分层下,无“全能型”代理,各工具的核心优势场景清晰:
    • OpenAI Codex:综合性能最稳定,9类任务接受率均在59.6%-88.6%,在修复(83.0%)、重构(74.3%)任务中领先;
    • Claude Code:在文档(92.3%)、新功能(72.6%)任务中表现最佳(注:样本量较小,需谨慎解读);
    • Cursor:在修复(80.4%)、测试(77.8%)任务中优势显著;
    • Devin/GitHub Copilot:无明显优势任务,Devin在修复任务中存在明显短板。
  3. Devin的性能提升被低估:Devin在观测期内逐步向更复杂的新功能任务倾斜(占比+9.8个百分点),但其接受率仍持续提升,说明其实际能力增长比观测结果更显著。
  4. 性能差异的核心场景聚焦:代理间的统计显著性能差异,5/6集中在修复任务,1/6在新功能任务,说明在核心开发活动中,代理的选择对结果影响更大。

三、对领域的实实在在的价值

1. 对开发者/企业:工具选择的精准指南

  • 修复、测试任务:优先选择OpenAI CodexCursor,二者接受率远高于其他代理;
  • 文档、新功能开发:可考虑Claude Code,发挥其专项优势;
  • 文档类任务:代理间差异极小(接受率均>79%),可根据团队使用习惯选择,无需刻意对比;
  • 长期项目:可关注Devin,其性能呈持续提升趋势,未来潜力值得期待。

2. 对工具开发者:优化方向的明确参考

  • Devin:需重点优化修复任务的能力,弥补核心短板;
  • GitHub Copilot:可降低PR的人工评审频率,提升开发效率;
  • 所有工具:可针对性能优化、测试等低接受率任务做专项模型优化,提升核心场景表现。

3. 对研究者:评估方法的范式革新

  • 提出任务分层对比法,成为AI编码代理评估的标准方法,解决了全局指标的评估误区;
  • 验证了“PR接受率+代码质量+维护成本”的多指标评估思路,为后续研究提供了可复用的框架;
  • 公开了大样本实证数据,为领域的后续研究提供了基础支撑。

四、开源资源

本次研究的所有数据、分析脚本、实验结果及补充材料均已开源,地址:https://github.com/giovannipinna96/Comparing_AI_Coding_Agents


详细总结

本研究是发表于2026年第23届挖掘软件仓库国际会议(MSR ’26)的实证研究,由多所高校学者联合开展,核心围绕5款主流AI编码代理的性能展开任务分层时间维度的对比分析,旨在解决AI编码代理在实际软件工程流程中性能对比、影响因素及演变规律的核心问题,以下为详细研究内容与结论:

一、研究背景与核心问题
  1. 行业现状:AI编码助手(如GitHub Copilot、Devin)推动软件工程进入“SE 3.0”时代,可自主完成代码生成、bug修复、创建PR等工作,但缺乏跨任务、跨时间的系统性能对比,且全局性能指标易受任务分布混杂,导致评估结果失真。
  2. 研究意义:为从业者选工具、开发者优化产品、研究者设计评估方法提供实证依据。
  3. 核心研究问题(RQ):
    • RQ1:AI编码代理的性能是否随时间发生可测量的变化?
    • RQ2:哪些因素(任务类型、评审频率等)与PR接受率相关,任务分布是否会混淆全局对比?
    • RQ3:不同AI编码代理在任务分层下的性能差异如何?
二、研究方法
  1. 数据集与预处理

    • 采用AIDev数据集的高星仓库子集(AIDev-POP),原始33596个PR,经筛选后保留7156个有效PR(闭源PR、MIT/Apache-2.0许可证、经非创建者评审/评论)。
    • 涉及5款代理,各代理的PR分布、观测窗口及整体接受率如下表:
      | Agent | 起始时间 | PR数量 | 活跃周数 | 周均PR | 整体接受率 |
      |-------|----------|--------|----------|--------|------------|
      | Devin | 12/24/24 | 2252 | 32 | 70.4 | 61.6% |
      | OpenAI Codex | 05/16/25 | 2002 | 12 | 166.8 | 77.9% |
      | GitHub Copilot | 05/19/25 | 2194 | 11 | 199.5 | 68.0% |
      | Cursor | 05/01/25 | 569 | 13 | 43.8 | 74.5% |
      | Claude Code | 02/24/25 | 139 | 19 | 7.3 | 71.9% |
      | 总计 | - | 7156 | 87 | - | 69.3% |
  2. 评估指标

    • 核心指标:PR接受率(合并PR占闭源PR的比例);
    • 辅助指标:任务分层观测、评审频率(每个PR的评审次数)。
  3. 统计方法

    • 时间趋势:线性回归(拟合每周接受率变化)、LOESS平滑(捕捉非线性趋势);
    • 因素分析:任务级接受率统计、评审频率相关性分析;
    • 代理对比:分层卡方检验、Fisher精确检验(小样本)、Bonferroni校正(控制多重检验),并通过phi系数衡量效应量。
三、核心研究结果
(一)RQ1:性能随时间的演变——仅Devin持续正向提升
  • Devin:32周内呈现显著的正向线性趋势,每周接受率提升0.77%(R²=0.34),接受率从约60%升至80%,但周度方差较大,性能仍不稳定;
  • 其余代理(OpenAI Codex、GitHub Copilot、Cursor、Claude Code):自观测初期起接受率便趋于平稳,无明显上升/下降趋势。
(二)RQ2:性能的影响因素——任务类型是主导因素
  1. 任务类型的核心影响:不同任务类型的PR接受率差距达29个百分点,远超过代理间的方差,各任务接受率如下表:
    | 任务类型 | chore(杂项) | docs(文档) | style(样式) | ci(持续集成) | build(构建) | refactor(重构) | feat(新功能) | fix(修复) | test(测试) | perf(性能) |
    |----------|---------------|--------------|---------------|----------------|---------------|-----------------|---------------|-------------|--------------|--------------|
    | 平均接受率 | 84.0% | 82.1% | 78.1% | 75.0% | 72.5% | 71.2% | 66.1% | 66.0% | 61.5% | 55.4% |
  • 关键差距:文档类任务(82.1%)比新功能类(66.1%)高16个百分点,结构清晰的任务接受率显著更高。
  1. 评审频率的关联:GitHub Copilot的PR评审频率最高(4.94次/PR),接受率却较低(68.0%);OpenAI Codex评审频率最低(1.39次/PR),接受率最高(77.9%),但二者无明确因果关系,或受任务复杂度、仓库评审政策影响。
(三)RQ3:任务分层的代理对比——无单一最优代理,各有专属优势
  1. 任务分布混杂全局指标:各代理的核心处理任务差异显著(如GitHub Copilot41.6%为修复任务,Claude Code52.5%为新功能任务),直接全局对比会产生误导,任务分层是必要前提
  2. 各代理的任务专属优势
    • OpenAI Codex:全9类任务接受率均处于59.6%–88.6% 的高位,在修复(83.0%)、重构(74.3%)任务中领先;
    • Claude Code:在文档(92.3%)、新功能(72.6%)任务中表现最佳(注:样本量较小,结果需谨慎解读);
    • Cursor:在修复任务(80.4%)、测试任务(77.8%)中突出;
    • Devin:无明显优势任务,在修复任务中接受率偏低,是其性能短板。
  3. 统计显著性:64次分层检验中仅6次通过Bonferroni校正(α≈0.00078),且5次集中在修复任务,说明代理间的性能差异在核心开发活动(修复、新功能) 中最易检测。
四、讨论与分析
  1. 敏感性分析:对齐所有代理的11周共同观测窗口后,结果与原分析一致,OpenAI Codex仍为接受率最高(79.9%),Devin与GitHub Copilot均为68.0%。
  2. 任务分布偏移:部分代理随时间向更复杂的任务倾斜(如Devin新功能任务占比+9.8pp),其接受率的提升或低估了实际能力增长
  3. 实践与研究启示
    • 从业者:按任务类型选择/组合代理,修复、测试任务需重点考量代理性能,文档任务代理间差异极小;
    • 研究者:任务分层应成为AI编码代理评估的标准方法,需同时报告任务分布与全局指标;PR接受率无法代表代码质量,需补充静态分析、代码复杂度、维护成本等指标。
  4. 研究局限性
    • 内部效度:无法确定性能趋势的因果(模型更新/用户学习/任务偏移);
    • 外部效度:仅覆盖高星仓库,难以推广至小型项目;
    • 构念效度:PR接受率≠代码质量,AI生成代码可能存在安全漏洞;
    • 数据局限:Claude Code样本量仅139个PR,部分代理观测窗口不均。
五、研究结论
  1. 任务类型是影响PR接受率的主导因素,不同任务间29个百分点的差距远超代理间方差,任务分层对比是避免评估失真的关键;
  2. 无单一AI编码代理在所有任务中表现最优,OpenAI Codex的综合性能最稳定,Claude Code、Cursor则在特定任务中具备显著优势;
  3. 仅Devin呈现持续的正向性能演变(32周每周+0.77%),其余代理性能自观测初期便趋于平稳;
  4. PR接受率作为单一评估指标存在缺陷,未来研究需结合代码质量、静态分析、维护负担等指标进行综合评价。

关键问题

问题1(侧重研究核心发现):该研究中影响AI编码代理PR接受率的最关键因素是什么,其具体影响程度如何?

答案:任务类型是影响PR接受率的主导因素,不同任务类型间的PR接受率差距达29个百分点,远超过代理间的方差;其中杂项类任务接受率最高(84.0%),性能优化类最低(55.4%),高-volume任务中文档类(82.1%)比新功能类(66.1%)高16个百分点,且该差距超过了大多数任务中代理间的性能差异,是导致PR接受率差异的核心原因。

问题2(侧重代理性能特征):5款主流AI编码代理在性能演变和任务表现上的核心差异是什么,是否存在综合性能最优的代理?

答案:性能演变上,Devin是唯一呈现持续正向趋势的代理(32周每周接受率+0.77%),其余代理均保持性能稳定;任务表现上,无单一综合性能最优的代理,各代理有专属优势:OpenAI Codex全任务接受率均处于59.6%–88.6%的高位,综合最稳定;Claude Code在文档、新功能任务中领先;Cursor在修复、测试任务中突出;GitHub Copilot与Devin无明显优势任务,且Devin在修复任务中存在性能短板。

问题3(侧重研究方法与行业启示):该研究指出传统全局指标评估AI编码代理存在缺陷,其核心问题是什么,对应的解决方案和行业启示有哪些?

答案:核心问题是全局性能指标易受代理的任务分布混杂,若某代理主要处理高接受率的简单任务(如文档),另一代理处理低接受率的复杂任务(如新功能),直接全局对比会误导对代理实际能力的判断。对应的解决方案是将任务分层对比作为AI编码代理评估的标准方法,同时报告任务分布与全局指标,并结合代码质量、静态分析、维护成本等指标补充评估。行业启示方面,从业者应根据具体任务类型选择或组合代理,修复、测试等核心开发任务需重点考量代理性能;工具开发者可针对代理的任务短板进行能力优化;研究者需在评估中引入分层方法,避免单一指标和全局对比的局限性。

研究总结

本研究是首项针对5款主流AI编码代理的任务分层+时间维度的大样本实证研究,通过对7156个来自真实高星仓库的AI生成PR的分析,明确了AI编码代理性能的核心影响因素和演变规律。研究发现,任务类型是影响PR接受率的主导因素,其影响远超过代理间的固有差异,传统全局指标因受任务分布混杂影响,存在严重评估偏差;同时,仅Devin呈现持续的正向性能演变,其余代理性能保持稳定,且无单一代理在所有任务中表现最优,各代理均有其专属的任务优势场景。

该研究的最大价值,不仅是揭晓了5款主流AI编码代理的性能差异,更重要的是突破了AI编码代理的传统评估误区,提出的任务分层对比法为领域建立了更科学的评估范式,同时为开发者选工具、工具商做优化、研究者做评估提供了全面且可落地的实证依据。未来,AI编码代理的评估需结合任务场景、时间演变、代码质量等多维度指标,才能更客观地反映其实际能力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐