技术速递|6000 万次 Copilot 代码审查 且仍在持续增长
随着 Copilot 代码审查的不断演进,我们对“好的代码审查”的定义也在变化。2024 年刚开始构建时,我们的目标只是做到足够全面。此后我们发现,开发者真正看重的是高信号的反馈——能够帮助他们快速推进 Pull Request。如今,Copilot 代码审查结合了最先进的模型、记忆能力以及智能体工具调用能力,来执行全面的审查。为了实现这一点,我们通过持续评估循环来优化智能体的判断能力,重点关注三
https://github.blog/ai-and-ml/github-copilot/60-million-copilot-code-reviews-and-counting/?wt.mc_id=3reg_webpage_reactor
作者:Ria Gopu & David Apirian
排版:Alan Wang
Copilot 代码审查如何帮助团队跟上 AI 加速带来的代码变更。

自去年 4 月我们首次推出 Copilot 代码审查(CCR)以来,其使用量已增长了 10 倍,目前已占 GitHub 上超过五分之一的代码审查。
在幕后,我们持续进行实验以提升评论质量。同时,我们也迁移到了基于智能体的架构,能够检索代码仓库上下文并对变更进行推理。在整个过程中,我们始终倾听你的反馈:无论是问卷调查,还是你对评论简单的点赞或点踩,都帮助我们识别关键问题,并不断优化用户体验,从而提供更全面的审查体验。
Copilot 代码审查可以处理 Pull Request 的审查和摘要,使团队能够专注于更复杂的任务。
——Suvarna Rane,General Motors 软件开发经理
重新定义“好的”代码审查
随着 Copilot 代码审查的不断演进,我们对“好的代码审查”的定义也在变化。2024 年刚开始构建时,我们的目标只是做到足够全面。此后我们发现,开发者真正看重的是高信号的反馈——能够帮助他们快速推进 Pull Request。如今,Copilot 代码审查结合了最先进的模型、记忆能力以及智能体工具调用能力,来执行全面的审查。为了实现这一点,我们通过持续评估循环来优化智能体的判断能力,重点关注三个关键特性:准确性、信号价值和速度。
准确性
我们的目标是让 Copilot 代码审查具备可靠的判断能力,优先关注关键的逻辑问题和可维护性问题。我们通过两种方式评估其表现:一是基于已知代码问题进行内部测试,二是利用来自真实 Pull Request 的生产环境信号。在生产环境中,我们重点跟踪两个关键指标:
-
开发者反馈:通过对评论的点赞或点踩,帮助我们判断这些建议是否真正有用。
-
生产信号:衡量被标记的问题是否在合并之前得到解决。
这些信号共同确保 Copilot 代码审查能够识别真正重要的问题,同时也保证更快的合并来自于有信心的修复,而不是降低审查标准。
信号价值
在代码审查中,评论越多并不一定代表审查越好。我们的目标并不是最大化评论数量,而是突出那些真正重要的问题。
高信号的评论能够帮助开发者同时理解问题所在以及如何修复:
沉默优于噪音。在 71% 的代码审查中,Copilot 代码审查会提供可执行的反馈;而在剩余的 29% 中,智能体则完全不做评论。
随着我们识别高信号问题能力的提升,我们也能够更加自信地进行评论。目前每次审查平均约产生 5.1 条评论,同时并未增加审查反复修改的情况,也没有降低我们的质量标准。
速度
在代码审查中,速度很重要,但信号价值更重要。Copilot 代码审查旨在在 Pull Request 打开后不久提供一次可靠的初步审查。当然,有意义的审查仍然需要分析。随着推理能力的提升,为了发现更深层问题所需的计算量也随之增加。
我们将其视为一种有意识的权衡。在最近的一次改进中,引入更先进的推理模型使正向反馈率提升了 6%,尽管审查延迟增加了 16%。
对我们来说,这是值得的取舍。相比即时但充满噪音的反馈,稍微慢一点但能发现真正问题的审查更有价值。我们会在可能的情况下持续降低延迟,但绝不会以牺牲开发者可以信赖的高信号反馈为代价。
试用 Copilot 代码审查:理解你代码库的 AI 审查智能体
Copilot 代码审查可以帮助你发现缺陷、提升代码可读性,并通过 AI 建议加快 Pull Request 的反馈速度——所有这些都直接发生在你使用 GitHub 的工作环境中。它无缝融入现有的 Pull Request 工作流,让你的团队更高效、更有信心地交付代码。
关于智能体架构
基于我们对“优秀代码审查”的新定义,我们重新构建了代码审查系统。如今的智能体架构能够智能检索上下文,并探索代码仓库,从而理解逻辑、架构以及特定约束条件。
仅这一转变,就带来了 8.1% 的正向反馈提升。
原因如下:
-
边读边发现问题,而不是事后总结:此前,智能体通常在审查结束时才汇总结果,这很容易“遗忘”早期发现的问题。
-
跨审查保留记忆:现在,每个 Pull Request 不再是孤立事件。如果在代码库某处识别出模式,它可以在后续审查中复用这些上下文。
-
通过明确计划处理长 PR:它可以提前规划审查策略,在面对长且复杂的 Pull Request 时显著提升表现(这些场景中上下文往往容易丢失)。
-
读取关联的 Issue 和 Pull Request:额外的上下文帮助发现细微问题,包括那些在局部看似合理、但与项目整体需求不一致的情况。
让审查更易理解和导航
通过不断优化智能体与 Pull Request 的交互方式,我们减少了噪音,并让反馈更具可操作性。对你来说,这意味着:
-
通过多行评论快速理解问题(以及修复方式):我们不再将评论固定在单行代码上,而是将反馈附加到逻辑代码片段范围中,让你更容易理解其指向,并应用建议的修改。

-
保持 Pull Request 时间线清晰易读:对于同一类模式错误,智能体不会生成多个分散的评论(这往往让人不堪重负),而是将它们聚合为一个统一、连贯的反馈,从而降低认知负担。
-
通过批量自动修复一次性解决整类问题:你可以批量应用建议的修复,一次性解决一整类逻辑缺陷或代码风格问题,而无需在多个零散建议之间频繁切换。
带走这些要点
随着 AI 持续加速软件开发,帮助团队在大规模场景下高效审查并信任代码变得比以往任何时候都更重要。Copilot 代码审查通过在 Pull Request 中直接提供高信号反馈,帮助团队跟上节奏,让开发者更早发现问题,并以更高信心完成合并。
目前,已有超过 12,000 家组织在每个 Pull Request 上自动运行 Copilot 代码审查。在 WEX,这种默认启用 AI 辅助审查的转变,推动了 Copilot 在整个工程组织中的规模化应用:
如今,三分之二的开发者都在使用 Copilot——包括组织中最活跃的贡献者。此后,WEX 通过在所有代码仓库中默认启用 Copilot 代码审查,进一步扩大了采用范围。开发者也在大量使用智能体模式和编码智能体来提升自主性,帮助 WEX 实现了显著的部署增长,代码交付量提升约 30%。
——WEX 客户案例
展望未来,我们将专注于更深度的个性化和高保真的交互体验,让智能体学习你团队那些未明说的偏好,同时支持双向对话,使你能够在合并前不断优化修复方案并探索不同实现路径。
随着 Copilot 能力不断演进——从编码、规划,到审查与自动化——目标始终很简单:在保证软件质量与信任的前提下,帮助开发者更快前进。
立即开始
Copilot 代码审查是一项高级功能,包含在 Copilot Pro、Copilot Pro+、Copilot Business 和 Copilot Enterprise 订阅中。你可以参考以下资源:
如果你已经启用了 Copilot 代码审查,可以查阅相关文档,在你的代码仓库或组织中为每个 Pull Request 设置自动代码审查。
有任何想法或反馈?欢迎在我们的社区讨论帖中告诉我们。
更多推荐


所有评论(0)