烧了 2 万美金让 16 个 AI 写编译器，Claude Agent Teams 到底在证明什么

Anthropic近期实验显示，16个Claude Opus 4.6 AI代理协作两周、花费约2万美元，成功开发出10万行Rust代码的C编译器。该编译器能编译Linux内核等复杂项目，支持多架构，并通过大部分C标准测试。实验证明AI可完成系统级工程任务，且成本已接近商业可行范围（相比人类工程师半年10万美元成本）。尽管编译质量、优化能力和维护性仍有待验证，但该实验标志着AI编程从单任务辅助迈向团

Wild API

670人浏览 · 2026-02-10 15:00:11

Wild API · 2026-02-10 15:00:11 发布

Anthropic 在发布 Opus 4.6 的时候，附带公布了一个内部实验的结果：他们用 16 个 Claude Opus 4.6 Agent 组成一个团队，从零写出了一个 10 万行的 C 编译器。

用 Rust 写的。能编译 Linux Kernel。花了接近 2 万美元。

The Register 的报道标题很直白：“Anthropic’s Claude Opus 4.6 spends $20K trying to write a C compiler”。

这件事在开发者社区引发了不少讨论。有人觉得这是 AI 编程的里程碑，有人觉得这就是烧钱搞噱头。我两边都能理解，但仔细看了技术细节之后，觉得这件事比表面看起来要有意思得多。

实验的具体数据

先把数字摆出来：

指标	数值
Agent 数量	16 个
运行时间	约 2 周
输入 token	20 亿
输出 token	1.4 亿
总成本	~$20,000
代码行数	~100,000 行 Rust
Claude Code 会话数	~2,000 次

这个编译器不是玩具项目。它能编译的东西包括：

Linux Kernel 6.9
QEMU
SQLite
Redis
Doom（是的，那个 Doom）

支持多种 CPU 架构。能通过大部分 C 标准的合规测试。

Agent Teams 怎么分工

16 个 Agent 不是各写各的。它们有明确的分工。

有的 Agent 负责实现编译器的前端（词法分析、语法解析）。有的负责中间表示和优化 pass。有的负责后端代码生成。还有 Agent 专门写测试，专门做 code review，专门处理 Git 合并冲突。

对，AI 也要处理 Git 冲突。16 个 Agent 同时往一个仓库提交代码，冲突是必然的。Anthropic 的解决方案是让一个 Agent 专门扮演"合并工程师"的角色，负责协调各方的代码变更。

这个分工方式和人类工程团队几乎一样。区别在于，人类团队 16 个人写 10 万行代码大概需要几个月到半年。这群 Agent 用了两周。

2 万美元贵不贵

我帮 Anthropic 算了一笔账。

Opus 4.6 的定价是输入 $5/百万 token，输出 $25/百万 token。

20 亿输入 token × $5/百万 = $10,000
1.4 亿输出 token × $25/百万 = $3,500

总计约 $13,500。和报道中的"接近 $20,000"有差距，可能是因为用了 Extended Thinking 模式（thinking token 按输出价格计费），或者有重试和失败的会话没计入有效 token。

但不管是 1.35 万还是 2 万，关键问题是：这个成本合理吗？

如果雇一个高级 Rust 工程师从零写一个 C 编译器，年薪按 $200K 算，写半年就是 $100K。Agent 花了 $20K，完成了 80% 以上的工作（后续可能还需要人类做精调和修 corner case）。

纯从成本角度看，$20K 买 10 万行能用的编译器代码，不贵。

但这么比有个问题：编译器工程师的薪资那么高，一部分原因是能写编译器的人很少。如果 AI 能写了，需求端和供给端都会变。这笔经济账会越来越复杂。

编译器质量到底怎么样

能编译 Linux Kernel 说明基本功扎实——Linux Kernel 的 C 代码用了大量 GCC 扩展和奇怪的宏技巧，对编译器的兼容性要求很高。

但能编译不代表编译得好。几个我关心的问题：

优化能力。 一个编译器能不能用，不只看能不能编译通过，还要看生成的代码跑得快不快。文章没有提到和 GCC/Clang 的性能对比数据。如果生成的代码比 GCC -O2 慢 5 倍，那实用性就大打折扣。

错误信息质量。 好的编译器在你写错的时候会告诉你错在哪、为什么错。Clang 在这方面做得很好。AI 写的编译器在 error reporting 上大概率不如 Clang——因为好的错误信息需要对开发者心理模型的理解，这不是纯工程能力能解决的。

维护性。 10 万行代码写出来了，谁来维护？AI 写的代码，人类读起来顺不顺畅？如果后续需要修 bug 或者加新特性，人类工程师能接手吗？这些问题在发布的材料里都没提到。

这个实验真正在证明的事

如果只看"AI 写了个编译器"这个结论，确实像噱头。编译器已经有 GCC 和 Clang 了，没人需要 AI 再写一个。

但 Anthropic 想证明的不是"AI 能写编译器"，而是三件事：

第一，Agent 协作是可行的。 16 个 Agent 能在同一个代码库上并行工作，处理分支、冲突、Code Review，跑完一个完整的软件工程流程。这在之前没有人做到过。

第二，AI 能处理大规模工程任务。 之前 AI 编程的上限是"帮你写个函数"或者"帮你修个 bug"。100 行、1000 行的任务。这次是 10 万行，是系统级别的工程。量变到质变。

第三，成本已经到了商业可行的区间。 $20K 写 10 万行代码。按每行 $0.20 算，比外包便宜，比雇全职更便宜。如果推理成本继续下降（过去一年降了 80%），这个数字会越来越小。

对普通开发者意味着什么

坦白说，短期内不意味着什么。

你不会明天就被 16 个 Agent 替代。大部分公司的项目不需要从零写编译器级别的代码。日常业务开发中，AI 的角色在很长一段时间内还是"助手"而不是"团队"。

但中期来看，值得思考几个变化：

项目启动成本会下降。 以前从零搭一个新系统，光是脚手架和基础设施代码就要写几周。如果 Agent Teams 能把这些重复性的系统级代码自动生成，开发者可以直接从业务逻辑开始写。

代码审查会变得更重要。 当 AI 能产出大量代码的时候，瓶颈就不在"写"上了，而在"审"上。能快速阅读、理解、评估 AI 生成代码的人会更值钱。

架构能力比编码能力更值钱。 AI 擅长的是"按照规范实现功能"。它不擅长的是"决定应该做什么、不应该做什么"。系统设计、技术选型、权衡取舍，这些依然需要人来做。

一个让我有点不安的问题

2000 次 Claude Code 会话，两周时间，16 个 Agent。这个规模的自动化开发，如果哪个步骤出了问题——比如某个 Agent 写出了有安全漏洞的代码，或者两个 Agent 的代码合并后产生了微妙的逻辑错误——谁来负责？

人类团队也会犯错，但人类有动机去减少错误（你写了 bug，你来修）。Agent 没有这个激励。它完成了任务就完成了，至于代码里埋了什么坑，它不在乎。

现在这只是一个内部实验。但如果这种工作方式推广开来，代码审计和质量保证的重要性会大幅提升。

写代码越来越容易了。确保代码是对的，才是难的部分。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

多智能体神话破灭？人多不一定力量大，一个模型可能更聪明

2048 AI社区

Datawhale Easy Vibe 课程 task1：vibe coding 入门，用说话来编程制作极简任务管理系统

由于你的代码已经是一个独立的 HTML 文件（包含了 CSS 和 JS），不需要复杂的构建过程。我想让 AI 生成一个网页极简任务管理系统，需要一个更完整的提示词，让生成结果更令人印象深刻和有趣。把优化的提示词输入智谱z.ai，在右边测试模型制作的应用，发现bug和缺少的功能，在左边通过对话的形式，让AI不断优化代码。描述：一个具有禅意美学的任务管理工具，专注于简单和高效的任务组织。，访问时不需要