Anthropic 在发布 Opus 4.6 的时候,附带公布了一个内部实验的结果:他们用 16 个 Claude Opus 4.6 Agent 组成一个团队,从零写出了一个 10 万行的 C 编译器。

用 Rust 写的。能编译 Linux Kernel。花了接近 2 万美元。

The Register 的报道标题很直白:“Anthropic’s Claude Opus 4.6 spends $20K trying to write a C compiler”。

这件事在开发者社区引发了不少讨论。有人觉得这是 AI 编程的里程碑,有人觉得这就是烧钱搞噱头。我两边都能理解,但仔细看了技术细节之后,觉得这件事比表面看起来要有意思得多。

实验的具体数据

先把数字摆出来:

指标 数值
Agent 数量 16 个
运行时间 约 2 周
输入 token 20 亿
输出 token 1.4 亿
总成本 ~$20,000
代码行数 ~100,000 行 Rust
Claude Code 会话数 ~2,000 次

这个编译器不是玩具项目。它能编译的东西包括:

  • Linux Kernel 6.9
  • QEMU
  • SQLite
  • Redis
  • Doom(是的,那个 Doom)

支持多种 CPU 架构。能通过大部分 C 标准的合规测试。

Agent Teams 怎么分工

16 个 Agent 不是各写各的。它们有明确的分工。

有的 Agent 负责实现编译器的前端(词法分析、语法解析)。有的负责中间表示和优化 pass。有的负责后端代码生成。还有 Agent 专门写测试,专门做 code review,专门处理 Git 合并冲突。

对,AI 也要处理 Git 冲突。16 个 Agent 同时往一个仓库提交代码,冲突是必然的。Anthropic 的解决方案是让一个 Agent 专门扮演"合并工程师"的角色,负责协调各方的代码变更。

这个分工方式和人类工程团队几乎一样。区别在于,人类团队 16 个人写 10 万行代码大概需要几个月到半年。这群 Agent 用了两周。

2 万美元贵不贵

我帮 Anthropic 算了一笔账。

Opus 4.6 的定价是输入 $5/百万 token,输出 $25/百万 token。

20 亿输入 token × $5/百万 = $10,000
1.4 亿输出 token × $25/百万 = $3,500

总计约 $13,500。和报道中的"接近 $20,000"有差距,可能是因为用了 Extended Thinking 模式(thinking token 按输出价格计费),或者有重试和失败的会话没计入有效 token。

但不管是 1.35 万还是 2 万,关键问题是:这个成本合理吗?

如果雇一个高级 Rust 工程师从零写一个 C 编译器,年薪按 $200K 算,写半年就是 $100K。Agent 花了 $20K,完成了 80% 以上的工作(后续可能还需要人类做精调和修 corner case)。

纯从成本角度看,$20K 买 10 万行能用的编译器代码,不贵。

但这么比有个问题:编译器工程师的薪资那么高,一部分原因是能写编译器的人很少。如果 AI 能写了,需求端和供给端都会变。这笔经济账会越来越复杂。

编译器质量到底怎么样

能编译 Linux Kernel 说明基本功扎实——Linux Kernel 的 C 代码用了大量 GCC 扩展和奇怪的宏技巧,对编译器的兼容性要求很高。

但能编译不代表编译得好。几个我关心的问题:

优化能力。 一个编译器能不能用,不只看能不能编译通过,还要看生成的代码跑得快不快。文章没有提到和 GCC/Clang 的性能对比数据。如果生成的代码比 GCC -O2 慢 5 倍,那实用性就大打折扣。

错误信息质量。 好的编译器在你写错的时候会告诉你错在哪、为什么错。Clang 在这方面做得很好。AI 写的编译器在 error reporting 上大概率不如 Clang——因为好的错误信息需要对开发者心理模型的理解,这不是纯工程能力能解决的。

维护性。 10 万行代码写出来了,谁来维护?AI 写的代码,人类读起来顺不顺畅?如果后续需要修 bug 或者加新特性,人类工程师能接手吗?这些问题在发布的材料里都没提到。

这个实验真正在证明的事

如果只看"AI 写了个编译器"这个结论,确实像噱头。编译器已经有 GCC 和 Clang 了,没人需要 AI 再写一个。

但 Anthropic 想证明的不是"AI 能写编译器",而是三件事:

第一,Agent 协作是可行的。 16 个 Agent 能在同一个代码库上并行工作,处理分支、冲突、Code Review,跑完一个完整的软件工程流程。这在之前没有人做到过。

第二,AI 能处理大规模工程任务。 之前 AI 编程的上限是"帮你写个函数"或者"帮你修个 bug"。100 行、1000 行的任务。这次是 10 万行,是系统级别的工程。量变到质变。

第三,成本已经到了商业可行的区间。 $20K 写 10 万行代码。按每行 $0.20 算,比外包便宜,比雇全职更便宜。如果推理成本继续下降(过去一年降了 80%),这个数字会越来越小。

对普通开发者意味着什么

坦白说,短期内不意味着什么。

你不会明天就被 16 个 Agent 替代。大部分公司的项目不需要从零写编译器级别的代码。日常业务开发中,AI 的角色在很长一段时间内还是"助手"而不是"团队"。

但中期来看,值得思考几个变化:

项目启动成本会下降。 以前从零搭一个新系统,光是脚手架和基础设施代码就要写几周。如果 Agent Teams 能把这些重复性的系统级代码自动生成,开发者可以直接从业务逻辑开始写。

代码审查会变得更重要。 当 AI 能产出大量代码的时候,瓶颈就不在"写"上了,而在"审"上。能快速阅读、理解、评估 AI 生成代码的人会更值钱。

架构能力比编码能力更值钱。 AI 擅长的是"按照规范实现功能"。它不擅长的是"决定应该做什么、不应该做什么"。系统设计、技术选型、权衡取舍,这些依然需要人来做。

一个让我有点不安的问题

2000 次 Claude Code 会话,两周时间,16 个 Agent。这个规模的自动化开发,如果哪个步骤出了问题——比如某个 Agent 写出了有安全漏洞的代码,或者两个 Agent 的代码合并后产生了微妙的逻辑错误——谁来负责?

人类团队也会犯错,但人类有动机去减少错误(你写了 bug,你来修)。Agent 没有这个激励。它完成了任务就完成了,至于代码里埋了什么坑,它不在乎。

现在这只是一个内部实验。但如果这种工作方式推广开来,代码审计和质量保证的重要性会大幅提升。

写代码越来越容易了。确保代码是对的,才是难的部分。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐