AI Agent 时代:编程的终结、“够用”AI 的陷阱与 Hacker 精神
摘要:a16z与Replit创始人Amjad Masad深入探讨了AI编程革命。Replit通过AI Agent实现自然语言编程,消除技术复杂性,让用户专注创意表达。Agent 3实现200分钟连贯工作,通过验证循环和多Agent协作突破长程推理难题。访谈揭示AI在可验证领域(代码/数学)进步显著,但AGI发展面临迁移学习瓶颈。Masad认为"够用"的AI可能阻碍真正AGI突破
近日,a16z 邀请到 Replit 的创始人兼首席执行官 Amjad Masad,与 Marc Andreessen 和 Erik Torenberg 一起,就 AI Agent 的崛起、编程的未来,以及软件如何开始自主构建软件展开了深入的探讨。这次访谈不仅追溯了计算的历史,揭示了 Replit 如何利用 AI Agent 让任何人都能用自然语言创建复杂的应用程序,更深入剖析了通用人工智能(AGI)的辩论和“足够好”的 AI 带来的潜在风险。
以下是对这次关于“AI Agent:编程的未来”的访谈的详细介绍、深入分析和深刻洞察。
一、Replit:从机器码到“英语编程”的革命
Masad 强调,AI Agent 正在消除编程中的“偶然复杂性”,让软件开发民主化。
1. 消除复杂性,专注思想
Replit 的愿景是让所有人都想构建软件。无论用户是否是编程大师或有无编码经验,Replit 提供的体验是相似的。平台致力于消除所有设置开发环境的繁琐步骤,并将焦点放在用户的创意上——用户只需在提示框中键入标准英语(甚至支持日语等主流语言)来描述他们想做的事情,例如:“我想在线卖可丽饼”。
这满足了 Grace Hopper (编译器发明者)75 年前提出的愿景:让人们使用英语编程。现在,我们正处于下一步的浪潮:机器编写代码,而我们键入的是思想,而非语法。
2. Agent 成为真正的程序员
在 Replit 中,Agent 正在取代人类用户,成为实际的程序员。
用户输入想法后,Replit Agent 会列出一系列计划任务,例如:“我要设置数据库”、“接受支付”和“构建网站”。Agent 会执行这些任务,而不是仅仅给出代码建议。
一个重要的创新是 Agent 3 引入的验证循环:Agent 编写软件后,会启动浏览器进行测试,如果发现问题,它会迭代并修复代码。整个过程可能持续 20 到 30 分钟。用户只需点击“发布”,App 即可部署到云端,省去了手动设置 AWS 账户、数据库和部署流程的巨大复杂性。
对于好奇的程序员来说,Replit 抽象了所有复杂性,但保留了所有层级,他们可以查看文件树、Git 历史,甚至推送到 GitHub。
二、Agents 的突破:长程推理与验证循环
实现 Agent 能够在复杂任务中维持运行和连贯性(Coherence)是 AI 领域的巨大技术挑战。
1. 连贯性的飞跃:从 2 分钟到 200 分钟
早期的 AI Agent 往往在运行两三分钟后就会开始困惑,进入“胡言乱语”甚至“精神错乱”的状态。Masad 指出,大约在去年(2023年)的某个时候,我们突破了 3 到 5 分钟的关口,这标志着**长程推理(Long-Horizon Reasoning)**问题正在被解决。
Replit 观测到的 Agent 进步速度惊人:
- Agent 1:运行 2 分钟后开始挣扎。
- Agent 2:运行 20 分钟。
- Agent 3:能够运行 200 分钟,有些用户甚至推至 12 小时。
2. RL 与验证循环是关键
Masad 认为,模型实现长期连贯性的关键突破在于强化学习(Reinforcement Learning, RL)。RL 允许大型语言模型(LLM)在一个编程环境中(如 Replit)展开“轨迹”(Trajectory),即一步步的推理链条。通过解决代码库中的 Bug,模型根据预先设定、可验证的解决方案获得奖励,从而训练其推理能力。
而在基础模型之外,将运行时间推到 200 分钟的关键是验证循环。例如,Replit 使用多 Agent 系统:一个 Agent 完成 20 分钟的工作后,会启动另一个 Agent 来测试其成果。如果发现 Bug,会将上一步的工作总结和 Bug 报告压缩成一个段落,作为提示输入给下一个 Agent,开启新的轨迹。这种接力赛机制使得 Agent 能够无限地执行任务。
观察 Agent 工作,就像在看一个服用了兴奋剂的、世界上最棒的程序员在工作。它会快速运行,但也会不时停下来思考,进行自我反思、审视工作,并在需要时调用工具(例如搜索网络解决 Postgress 兼容性问题),就像一个人类程序员一样。
三、深刻洞察:可验证领域与 AGI 的困境
访谈深入探讨了 AI 进步的不平衡性,以及“通用智能”的定义。
1. “可验证性”决定了进步速度
早期 LLMs 被戏称为“随机鹦鹉”(stochastic parrot),因为它们虽然擅长语言,但在涉及理性思考和问题解决(如数学和逻辑)时会出错。通过引入 RL 和验证机制,LLMs 结合了连接主义(神经网络)和符号系统(离散推理),类似于 AlphaGo 的突破。
RL 能够奏效的关键是问题必须拥有定义明确且可验证的答案。Masad 和 Andreessen 指出,进步最快的是**“硬”领域**:
- 代码、数学、物理、化学、生物学(如蛋白质组学)以及部分机器人技术,因为它们的输出结果可以被确凿地验证(例如:代码是否编译并产生正确输出、桥梁是否会倒塌)。
- 相比之下,法律和医疗诊断等“软”领域进展缓慢,因为其结果缺乏可运行或可验证的明确标准,显得“过于模糊”。
2. AGI 辩论与“够用”的陷阱
Masad 认为,目前存在一种奇怪的动态:我们对 AI 的进步感到兴奋,但又因为其速度不够快而感到失望,甚至担心它可能停滞不前。
AGI 的核心挑战在于**迁移学习(Transfer Learning)**的能力。 Masad 观察到,我们虽然在代码方面取得巨大进步,但这并未立即推广到广义推理上——生物学、化学或法律等领域仍然需要单独的训练数据和 RL 环境。Masad 甚至讽刺地问道,既然人类在不同领域之间的迁移学习能力都不强(例如,经济学家在政治问题上的盲点,如爱因斯坦的政治观点),那么也许我们已经达到了“人类水平的 AI”。
Masad 对**“真正的 AGI 突破”(即高效的持续学习和跨域泛化能力)持悲观态度。他担心我们正处于一个“局部最大值陷阱”**中:
“够用(Good Enough)”是敌人。
当前的技术(功能性 AGI,即自动化经济活动中的大量劳动)已经非常有经济价值且好用到足以缓解继续追求通用、理论上完美 AGI 的压力。
3. GPT-5 的“人性”退步
Masad 提到他对 GPT-5 的体验是感受到了回报递减。虽然它在可验证领域表现更好,但在更具**“人性化”的角度上似乎有所退步,变得更加“机器人化”,不如 GPT-4 贴近人类体验。 Masad 关注模型对有争议性问题**(如新冠起源、世贸大厦 7 号楼事件)的推理能力,认为 AI 在这些问题上尚未看到实质性进展。
Andreessen 补充道,他将高级模型用作“随叫随到的博士”,它们在知识合成方面表现卓越,能生成长达 40 页的 PDF 文档,提供世界级的、逻辑连贯的复杂主题解释。不过 Masad 强调,这更多是知识合成而非创造新知识。
四、Amjad Masad 的 Hacker 历程与 AI 时代的启示
Masad 的个人故事为当前 AI 时代提供了独特的视角和启示。
Masad 在 1993 年(6 岁)在约旦接触了家里的第一台 IBM PC。他 12 岁时创建了第一家赚钱的公司,为网吧编写管理软件。当时,他甚至认为编程正在被自动化(因为“向导”这种简陋的早期 Bot),因此他最初选择的是计算机工程而非计算机科学。
在大学期间,由于过度专注于编程和创业,Masad 的出勤率很低。为了毕业,他花费两周时间,利用 SQL 注入漏洞黑入了大学数据库并更改了成绩。
尽管被发现,但大学校长给了他第二次机会,条件是帮助学校系统管理员保护系统。Masad 在辩护时,甚至在白板上向所有院长解释了他的黑客过程,这相当于一次“博士学位口头考试”。他最终不仅成功毕业,还编写了一个安全扫描器,发现了系统中的另一个漏洞。
Masad 从中得出的教训,对于 AI 时代尤为重要:
传统、墨守成规的道路所带来的回报越来越少。如今的孩子应该利用所有可用的工具来发现和规划自己的道路,因为听从传统建议和做人们一直在做的事情不再那么奏效了。
总结与展望
这次访谈描绘了一个由 AI Agent 驱动的编程新世界,在这个世界里,创建软件的障碍被大幅降低。未来的发展趋势包括:
- 并行 Agents: 预计明年(访谈当下),用户将能够同时运行 5 到 10 个 Agents,进行并行工作(例如规划新功能、重构数据库)并合并代码。
- 多模态交互: 界面将更加友好,融合设计、视觉和图表等创意交互方式。
- 程序员的终结: 普通人创建软件的能力将很快达到目前 Google 高级软件工程师的水平。
尽管在通用智能(AGI)的理论突破上存在争议和怀疑,但 Masad 相信,在可验证的领域(尤其是代码和科学),进步速度正在加速,这预示着人类将进入一个由“功能性 AGI”极大提升生产力的时代。
更多推荐


所有评论(0)