[论文阅读] AI + 软件工程 | 谁是最佳AI编码助手？5款主流工具的任务分层实证研究揭晓

AI编码助手的快速普及正在重塑软件工程实践，但不同代理在不同任务类型和时间维度的有效性对比仍较为缺乏。本文通过分析AIDev数据集中7156个拉取请求（PR），对OpenAI Codex、GitHub Copilot、Devin、Cursor和Claude Code五款主流代理开展实证研究。时间趋势分析显示代理演变模式存在异质性：Devin是唯一呈现PR接受率持续正向增长的代理（32周内每周+0.

zhangjiaoshou_

463人浏览 · 2026-02-11 20:37:24

zhangjiaoshou_ · 2026-02-11 20:37:24 发布

谁是最佳AI编码助手？5款主流工具的任务分层实证研究揭晓

论文信息

原标题：Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance
主要作者及研究机构：Giovanni Pinna（意大利特里埃斯特大学）、Jingzhi Gong（英国伦敦国王学院）、David Williams（英国伦敦大学学院）、Federica Sarro（英国伦敦大学学院）
引文格式（GB/T 7714）：Pinna G,Gong J,Williams D,et al. Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance[C]//23rd International Conference on Mining Software Repositories (MSR ’26). Rio de Janeiro: ACM,2026.
发表会议：2026年第23届挖掘软件仓库国际会议（MSR ’26）

一段话总结

这篇发表于MSR ’26的实证研究分析了AIDev数据集中5款主流AI编码代理（OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code）的7156个拉取请求（PR），通过时间趋势分析、任务分层对比探究其PR接受率表现，发现Devin是唯一呈现持续正向性能趋势的代理（32周内每周接受率提升0.77%），任务类型是影响PR接受率的主导因素（不同任务间接受率差距达29个百分点，文档类82.1%远高于新功能类66.1%），且无单一代理在所有任务类型中表现最优：OpenAI Codex在各任务中接受率均保持较高水平（59.6%–88.6%），Claude Code在文档和新功能任务中领先，Cursor则在修复类任务中表现突出；研究还指出全局性能指标易受任务分布混杂影响，任务分层对比应成为AI编码代理评估的标准方法，同时PR接受率无法完全代表代码质量，需结合其他指标综合评价。

在这里插入图片描述

研究背景

AI编码助手的爆发式发展正在重构软件工程的工作模式，从最初的GitHub Copilot代码补全，到Devin、Cursor这类能自主生成函数、修复Bug、创建拉取请求（PR）的自治代理，软件工程正式迈入了“SE 3.0”时代——AI成为只需少量人类监督就能完成复杂开发任务的自治队友。

但在行业快速发展的背后，核心评估问题始终悬而未决：不同AI编码代理在实际开发流程中的效果到底如何对比？哪些因素会影响它们的性能？性能是否会随时间发生变化？

更关键的是，传统的全局性能指标（如整体PR接受率）存在严重的评估误区。举个例子，若A代理主要处理高接受率的文档编写任务，B代理专注于复杂的新功能开发，仅看全局指标会误以为A远优于B，却忽略了二者的任务难度差异。这种因任务分布混杂导致的评估偏差，让开发者选工具、研究者做评估、工具商做优化都缺乏可靠依据，这也是该领域亟待解决的核心痛点。

创新点

时间维度的长期追踪：首次对5款主流AI编码代理进行了跨周期的性能演变分析，最长观测窗口达32周，揭示了不同代理的性能时间变化规律。
任务分层的评估方法：提出并实践了任务分层对比法，打破传统全局指标的评估误区，控制任务分布混杂的干扰，让不同代理的性能对比更客观。
多维度的实证分析：结合PR接受率、评审频率、任务分布偏移等多维度指标，不仅对比了代理性能，还探究了性能差异的核心影响因素，为领域研究提供了可复用的实证框架。
大样本的真实场景验证：基于7156个来自真实高星GitHub仓库的AI生成PR展开分析，样本覆盖5款代理、12类开发任务，研究结论更贴近工业界实际应用场景。

研究方法和思路

本次研究围绕3个核心研究问题（RQ） 展开，通过数据筛选-指标定义-统计分析-结果验证的四步思路完成实证研究，整体方法可拆解为以下关键步骤：

步骤1：数据集选取与预处理

选用AIDev数据集的高星仓库子集（AIDev-POP，仓库星数≥100），原始数据包含33596个AI生成PR，通过3条质量标准筛选出7156个有效PR：

仅保留已关闭的PR，排除未处理的无效样本；
仅选取采用MIT/Apache-2.0宽松许可证的仓库，保证数据可用性；
要求每个PR在关闭前至少有1条非创建者的评审/评论，确保PR经过了实际人工评估。

最终样本覆盖5款主流AI编码代理，各代理的观测窗口、PR数量等基础信息如下：

代理	观测起始时间	有效PR数	活跃周数	周均PR数	整体PR接受率
Devin	2024-12-24	2252	32	70.4	61.6%
OpenAI Codex	2025-05-16	2002	12	166.8	77.9%
GitHub Copilot	2025-05-19	2194	11	199.5	68.0%
Cursor	2025-05-01	569	13	43.8	74.5%
Claude Code	2025-02-24	139	19	7.3	71.9%

步骤2：核心指标与统计方法定义

核心评估指标：以PR接受率（合并PR占已关闭PR的比例）为核心成功指标，同时引入评审频率（单PR的人工评审次数）、任务分层观测（代理-任务-周的唯一组合）为辅助指标；
时间趋势分析：用线性回归拟合代理每周PR接受率的变化，通过R²衡量拟合度，同时用LOESS局部平滑法捕捉非线性趋势；
代理对比分析：采用分层卡方检验做代理间两两对比，对小样本场景用Fisher精确检验，通过Bonferroni校正控制多重检验误差，用phi系数衡量性能差异的效应大小；
敏感性验证：为解决不同代理观测窗口不一致的问题，选取所有代理的11周共同观测窗口重复分析，验证结果的稳定性。

步骤3：分研究问题开展分析

针对3个核心研究问题，分别设计针对性分析方案：

RQ1（性能时间演变）：拟合各代理的PR接受率时间趋势，对比线性变化斜率与稳定性；
RQ2（性能影响因素）：统计12类任务的PR接受率，分析任务类型的影响，同时探究评审频率与接受率的相关性；
RQ3（代理性能对比）：先分析各代理的任务分布差异，再通过任务分层法对比不同代理在同类任务中的性能，筛选出统计上显著的性能差异。

主要成果和贡献

本次研究通过对7156个有效PR的全面分析，明确回答了3个核心研究问题，同时为AI编码代理的评估、选择和优化提供了可落地的实证结论，核心成果和领域贡献如下：

一、3大研究问题的核心结论

研究问题	核心分析内容	直白结论
RQ1：AI编码代理性能是否随时间演变？	拟合32周内各代理PR接受率的时间趋势，分析斜率与稳定性	仅Devin呈现持续正向性能演变（每周接受率+0.77%，从60%升至80%），其余4款代理性能全程保持稳定，无明显上升/下降趋势
RQ2：哪些因素与代理性能相关？	统计12类任务的PR接受率，分析任务分布、评审频率的影响	任务类型是主导因素（不同任务接受率差距达29个百分点），评审频率与接受率存在关联但无因果；全局指标易受任务分布混杂，评估偏差大
RQ3：不同代理性能如何对比？	任务分层下的代理两两对比，筛选统计显著的性能差异	无单一代理在所有任务中最优，各代理有专属任务优势；性能差异在修复、新功能等核心开发任务中最显著

二、研究的核心发现

任务类型的影响远超代理差异：不同开发任务的PR接受率差距达29个百分点，杂项类（84.0%）、文档类（82.1%）接受率最高，性能优化类（55.4%）最低；文档类比新功能类接受率高16个百分点，该差距超过了大多数任务中代理间的性能差异。
各代理的任务专属优势明确：任务分层下，无“全能型”代理，各工具的核心优势场景清晰：
- OpenAI Codex：综合性能最稳定，9类任务接受率均在59.6%-88.6%，在修复（83.0%）、重构（74.3%）任务中领先；
- Claude Code：在文档（92.3%）、新功能（72.6%）任务中表现最佳（注：样本量较小，需谨慎解读）；
- Cursor：在修复（80.4%）、测试（77.8%）任务中优势显著；
- Devin/GitHub Copilot：无明显优势任务，Devin在修复任务中存在明显短板。
Devin的性能提升被低估：Devin在观测期内逐步向更复杂的新功能任务倾斜（占比+9.8个百分点），但其接受率仍持续提升，说明其实际能力增长比观测结果更显著。
性能差异的核心场景聚焦：代理间的统计显著性能差异，5/6集中在修复任务，1/6在新功能任务，说明在核心开发活动中，代理的选择对结果影响更大。

三、对领域的实实在在的价值

1. 对开发者/企业：工具选择的精准指南

修复、测试任务：优先选择OpenAI Codex或Cursor，二者接受率远高于其他代理；
文档、新功能开发：可考虑Claude Code，发挥其专项优势；
文档类任务：代理间差异极小（接受率均>79%），可根据团队使用习惯选择，无需刻意对比；
长期项目：可关注Devin，其性能呈持续提升趋势，未来潜力值得期待。

2. 对工具开发者：优化方向的明确参考

Devin：需重点优化修复任务的能力，弥补核心短板；
GitHub Copilot：可降低PR的人工评审频率，提升开发效率；
所有工具：可针对性能优化、测试等低接受率任务做专项模型优化，提升核心场景表现。

3. 对研究者：评估方法的范式革新

提出任务分层对比法，成为AI编码代理评估的标准方法，解决了全局指标的评估误区；
验证了“PR接受率+代码质量+维护成本”的多指标评估思路，为后续研究提供了可复用的框架；
公开了大样本实证数据，为领域的后续研究提供了基础支撑。

四、开源资源

本次研究的所有数据、分析脚本、实验结果及补充材料均已开源，地址：https://github.com/giovannipinna96/Comparing_AI_Coding_Agents

详细总结

本研究是发表于2026年第23届挖掘软件仓库国际会议（MSR ’26）的实证研究，由多所高校学者联合开展，核心围绕5款主流AI编码代理的性能展开任务分层与时间维度的对比分析，旨在解决AI编码代理在实际软件工程流程中性能对比、影响因素及演变规律的核心问题，以下为详细研究内容与结论：

一、研究背景与核心问题

行业现状：AI编码助手（如GitHub Copilot、Devin）推动软件工程进入“SE 3.0”时代，可自主完成代码生成、bug修复、创建PR等工作，但缺乏跨任务、跨时间的系统性能对比，且全局性能指标易受任务分布混杂，导致评估结果失真。
研究意义：为从业者选工具、开发者优化产品、研究者设计评估方法提供实证依据。
核心研究问题（RQ）：
- RQ1：AI编码代理的性能是否随时间发生可测量的变化？
- RQ2：哪些因素（任务类型、评审频率等）与PR接受率相关，任务分布是否会混淆全局对比？
- RQ3：不同AI编码代理在任务分层下的性能差异如何？

二、研究方法

数据集与预处理
- 采用AIDev数据集的高星仓库子集（AIDev-POP），原始33596个PR，经筛选后保留7156个有效PR（闭源PR、MIT/Apache-2.0许可证、经非创建者评审/评论）。
- 涉及5款代理，各代理的PR分布、观测窗口及整体接受率如下表：
  | Agent | 起始时间 | PR数量 | 活跃周数 | 周均PR | 整体接受率 |
  |-------|----------|--------|----------|--------|------------|
  | Devin | 12/24/24 | 2252 | 32 | 70.4 | 61.6% |
  | OpenAI Codex | 05/16/25 | 2002 | 12 | 166.8 | 77.9% |
  | GitHub Copilot | 05/19/25 | 2194 | 11 | 199.5 | 68.0% |
  | Cursor | 05/01/25 | 569 | 13 | 43.8 | 74.5% |
  | Claude Code | 02/24/25 | 139 | 19 | 7.3 | 71.9% |
  | 总计 | - | 7156 | 87 | - | 69.3% |
评估指标
- 核心指标：PR接受率（合并PR占闭源PR的比例）；
- 辅助指标：任务分层观测、评审频率（每个PR的评审次数）。
统计方法
- 时间趋势：线性回归（拟合每周接受率变化）、LOESS平滑（捕捉非线性趋势）；
- 因素分析：任务级接受率统计、评审频率相关性分析；
- 代理对比：分层卡方检验、Fisher精确检验（小样本）、Bonferroni校正（控制多重检验），并通过phi系数衡量效应量。

三、核心研究结果

（一）RQ1：性能随时间的演变——仅Devin持续正向提升

Devin：32周内呈现显著的正向线性趋势，每周接受率提升0.77%（R²=0.34），接受率从约60%升至80%，但周度方差较大，性能仍不稳定；
其余代理（OpenAI Codex、GitHub Copilot、Cursor、Claude Code）：自观测初期起接受率便趋于平稳，无明显上升/下降趋势。

（二）RQ2：性能的影响因素——任务类型是主导因素

任务类型的核心影响：不同任务类型的PR接受率差距达29个百分点，远超过代理间的方差，各任务接受率如下表：
| 任务类型 | chore（杂项） | docs（文档） | style（样式） | ci（持续集成） | build（构建） | refactor（重构） | feat（新功能） | fix（修复） | test（测试） | perf（性能） |
|----------|---------------|--------------|---------------|----------------|---------------|-----------------|---------------|-------------|--------------|--------------|
| 平均接受率 | 84.0% | 82.1% | 78.1% | 75.0% | 72.5% | 71.2% | 66.1% | 66.0% | 61.5% | 55.4% |

关键差距：文档类任务（82.1%）比新功能类（66.1%）高16个百分点，结构清晰的任务接受率显著更高。

评审频率的关联：GitHub Copilot的PR评审频率最高（4.94次/PR），接受率却较低（68.0%）；OpenAI Codex评审频率最低（1.39次/PR），接受率最高（77.9%），但二者无明确因果关系，或受任务复杂度、仓库评审政策影响。

（三）RQ3：任务分层的代理对比——无单一最优代理，各有专属优势

任务分布混杂全局指标：各代理的核心处理任务差异显著（如GitHub Copilot41.6%为修复任务，Claude Code52.5%为新功能任务），直接全局对比会产生误导，任务分层是必要前提。
各代理的任务专属优势：
- OpenAI Codex：全9类任务接受率均处于59.6%–88.6% 的高位，在修复（83.0%）、重构（74.3%）任务中领先；
- Claude Code：在文档（92.3%）、新功能（72.6%）任务中表现最佳（注：样本量较小，结果需谨慎解读）；
- Cursor：在修复任务（80.4%）、测试任务（77.8%）中突出；
- Devin：无明显优势任务，在修复任务中接受率偏低，是其性能短板。
统计显著性：64次分层检验中仅6次通过Bonferroni校正（α≈0.00078），且5次集中在修复任务，说明代理间的性能差异在核心开发活动（修复、新功能） 中最易检测。

四、讨论与分析

敏感性分析：对齐所有代理的11周共同观测窗口后，结果与原分析一致，OpenAI Codex仍为接受率最高（79.9%），Devin与GitHub Copilot均为68.0%。
任务分布偏移：部分代理随时间向更复杂的任务倾斜（如Devin新功能任务占比+9.8pp），其接受率的提升或低估了实际能力增长。
实践与研究启示
- 从业者：按任务类型选择/组合代理，修复、测试任务需重点考量代理性能，文档任务代理间差异极小；
- 研究者：任务分层应成为AI编码代理评估的标准方法，需同时报告任务分布与全局指标；PR接受率无法代表代码质量，需补充静态分析、代码复杂度、维护成本等指标。
研究局限性
- 内部效度：无法确定性能趋势的因果（模型更新/用户学习/任务偏移）；
- 外部效度：仅覆盖高星仓库，难以推广至小型项目；
- 构念效度：PR接受率≠代码质量，AI生成代码可能存在安全漏洞；
- 数据局限：Claude Code样本量仅139个PR，部分代理观测窗口不均。

五、研究结论

任务类型是影响PR接受率的主导因素，不同任务间29个百分点的差距远超代理间方差，任务分层对比是避免评估失真的关键；
无单一AI编码代理在所有任务中表现最优，OpenAI Codex的综合性能最稳定，Claude Code、Cursor则在特定任务中具备显著优势；
仅Devin呈现持续的正向性能演变（32周每周+0.77%），其余代理性能自观测初期便趋于平稳；
PR接受率作为单一评估指标存在缺陷，未来研究需结合代码质量、静态分析、维护负担等指标进行综合评价。

关键问题

问题1（侧重研究核心发现）：该研究中影响AI编码代理PR接受率的最关键因素是什么，其具体影响程度如何？

答案：任务类型是影响PR接受率的主导因素，不同任务类型间的PR接受率差距达29个百分点，远超过代理间的方差；其中杂项类任务接受率最高（84.0%），性能优化类最低（55.4%），高-volume任务中文档类（82.1%）比新功能类（66.1%）高16个百分点，且该差距超过了大多数任务中代理间的性能差异，是导致PR接受率差异的核心原因。

问题2（侧重代理性能特征）：5款主流AI编码代理在性能演变和任务表现上的核心差异是什么，是否存在综合性能最优的代理？

答案：性能演变上，Devin是唯一呈现持续正向趋势的代理（32周每周接受率+0.77%），其余代理均保持性能稳定；任务表现上，无单一综合性能最优的代理，各代理有专属优势：OpenAI Codex全任务接受率均处于59.6%–88.6%的高位，综合最稳定；Claude Code在文档、新功能任务中领先；Cursor在修复、测试任务中突出；GitHub Copilot与Devin无明显优势任务，且Devin在修复任务中存在性能短板。

问题3（侧重研究方法与行业启示）：该研究指出传统全局指标评估AI编码代理存在缺陷，其核心问题是什么，对应的解决方案和行业启示有哪些？

答案：核心问题是全局性能指标易受代理的任务分布混杂，若某代理主要处理高接受率的简单任务（如文档），另一代理处理低接受率的复杂任务（如新功能），直接全局对比会误导对代理实际能力的判断。对应的解决方案是将任务分层对比作为AI编码代理评估的标准方法，同时报告任务分布与全局指标，并结合代码质量、静态分析、维护成本等指标补充评估。行业启示方面，从业者应根据具体任务类型选择或组合代理，修复、测试等核心开发任务需重点考量代理性能；工具开发者可针对代理的任务短板进行能力优化；研究者需在评估中引入分层方法，避免单一指标和全局对比的局限性。

研究总结

本研究是首项针对5款主流AI编码代理的任务分层+时间维度的大样本实证研究，通过对7156个来自真实高星仓库的AI生成PR的分析，明确了AI编码代理性能的核心影响因素和演变规律。研究发现，任务类型是影响PR接受率的主导因素，其影响远超过代理间的固有差异，传统全局指标因受任务分布混杂影响，存在严重评估偏差；同时，仅Devin呈现持续的正向性能演变，其余代理性能保持稳定，且无单一代理在所有任务中表现最优，各代理均有其专属的任务优势场景。

该研究的最大价值，不仅是揭晓了5款主流AI编码代理的性能差异，更重要的是突破了AI编码代理的传统评估误区，提出的任务分层对比法为领域建立了更科学的评估范式，同时为开发者选工具、工具商做优化、研究者做评估提供了全面且可落地的实证依据。未来，AI编码代理的评估需结合任务场景、时间演变、代码质量等多维度指标，才能更客观地反映其实际能力。