Anthropic发布革命性工具:让AI自己写代码、测试、修Bug
Anthropic发布革命性工具Harness,让AI自己写代码、测试、修Bug。三代理架构让开发效率提升10倍,从数月缩短到几天。
Anthropic发布革命性工具:让AI自己写代码、测试、修Bug
Anthropic刚刚发布的这项技术,可能彻底改变开发者写代码的方式。
你有没有想过:以后写代码,可能只需要说一句话,AI就能帮你从零开始,做出一个完整可用的App?
这听起来像科幻,但Anthropic告诉你——这已经是现实了。
一个关键发现:AI最大的短板,不是能力,是"自知之明"
2026年3月24日,Anthropic发布了一篇重磅工程博客,揭露了一个让整个AI圈震动的发现:
“同一个AI既当运动员又当裁判,永远会给自己打满分。”
这是什么意思?
Anthropic团队做了个对比实验:
单代理模式:让一个Claude同时负责写代码和自测。
结果呢?20分钟烧了9美元,产出的应用Bug遍地、功能残缺,根本没法用。
三代理模式:把任务拆给三个AI,各干各的。
结果呢?6小时烧了200美元,产出的是一个完整可用的应用,直接能上线。
同样的AI,为什么差距这么大?
答案很简单:AI无法诚实评估自己的工作质量。你让AI自己测自己,它永远觉得"我写得挺好"。
三代理架构:让AI像开发团队一样协作
Anthropic从这个发现出发,设计了一套革命性的架构,叫Harness Engineering。
核心就是三代理分工:
1️⃣ Planner(规划者)
你跟它说:“帮我做个记账App。”
它会输出一份详细的规格说明书——界面怎么布局、功能有哪些、技术怎么实现,全给你安排明白。
2️⃣ Generator(生成者)
拿到规格书,它就开始老老实实写代码。
不纠结、不内耗、不自我怀疑——规格说啥我做啥。
3️⃣ Evaluator(评估者)
这是整个架构的灵魂。
它会真正运行应用,用自动化测试工具模拟用户操作,发现Bug就记录下来,生成详细的反馈报告。
三个AI形成一个闭环:
Generator写代码 → Evaluator测试 → 反馈问题 → Generator修复 → 再测试 → ……
直到Evaluator觉得"可以了",整个流程才结束。
为什么这套架构这么有效?
原因一:专注产生质量
每个AI只干一件事。规划的不用写代码,生成的不用管测试,评估的不用操心需求。专注带来专业。
原因二:天然的质量门槛
Evaluator就像公司的代码审查员——写代码的人和审查代码的人必须分开,这是常识。
原因三:成本可控,效果翻倍
升级到更强的Opus 4.6模型后,成本直接从200美元降到了124美元,还做出了一款功能完整的音乐制作工具。
重磅:Anthropic把Harness做成了产品
你以为这只是理论?Anthropic已经把它做成了商业产品。
4月初,Claude Managed Agents正式发布——一套可直接构建、部署、云托管的AI智能体服务。
核心数据很吓人:企业智能体构建与部署效率提升10倍,开发时间从数月缩短到几天。
它把AI Agent拆成了三个独立组件:
- 会话(Session):AI的"长期记忆",任务可以跨天、跨周持续运行
- 协调器(Harness):大脑和双手之间的"神经网络",调度任务、管理工具
- 沙盒(Sandbox):AI的"隔离试验场",即使出错也不影响主系统
而且,安全被内嵌到了架构里:
- 工具级隔离(只读代理只有Read权限)
- 凭证外部存储(AI生成的代码碰不到敏感令牌)
- 最小权限原则(每个Agent只拿干活必需的权限)
对普通开发者意味着什么?
别再重复造轮子了。
构建沙箱、管理凭证、配置权限、链路追踪——这些东西不需要你自己写。Anthropic替你干了。
你只需要做两件事:
- 想清楚你的AI Agent要干什么
- 画好线——告诉它哪些事情绝对不能做
Harness正在从"方法论"变成"云服务"。就像当年云计算把服务器变成服务一样,AI Agent的"操作系统"正在变成云产品。
懂Harness的人,和只会写Prompt的人,差距会越来越大。
写在最后
Anthropic的工程师说过一句话,我觉得特别到位:
“Agent本身的能力已经很强了,真正的难点是Harness——如何给AI套上缰绳,让它可靠地干活。”
AI Agent的未来,不是单打独斗的超级英雄,而是一个配合默契的团队。
你觉得这种多代理架构会改变软件开发的方式吗?
更多推荐


所有评论(0)