达里奥·阿莫代：我们正接近指数增长的终点

在这次访谈中，Dario Amodei（Anthropic CEO）围绕“AI 正接近指数增长终点”给出了一套更具体的判断框架：能力提升仍在沿着可规模化的“少数关键因素”推进，但真正会把指数曲线“压弯”的，很可能是经济与组织层面的扩散与闭环。他强调：Dario 回顾自己从 2017 年起的核心判断：真正拉开差距的往往不是“更聪明的小技巧”，而是能持续放大的要素——原始算力、数据数量、数据质量与分布

xiaomao2026

846人浏览 · 2026-03-01 14:01:02

xiaomao2026 · 2026-03-01 14:01:02 发布

达里奥·阿莫代：我们正接近指数增长的终点

摘要

在这次访谈中，Dario Amodei（Anthropic CEO）围绕“AI 正接近指数增长终点”给出了一套更具体的判断框架：能力提升仍在沿着可规模化的“少数关键因素”推进，但真正会把指数曲线“压弯”的，很可能是经济与组织层面的扩散与闭环。他强调：

他仍坚持 2017 年提出的“大算力团块（Big Blob of Compute）”假说：多数所谓“新方法”只是配角，决定上限的是少数可规模化要素（算力、数据、训练时长、可扩展目标函数与数值稳定性等）。
预训练与 RL（含 RLHF 等）在他看来是同一类规律：当任务与数据分布变得足够广，同样会出现类似的规模化（如在数学与编码等可验证任务上呈现 log-linear 的提升）。
“能力指数”之外还有“扩散指数”：Anthropic 内部观察到收入曾出现每年约 10x 的增长（他举例：2023 年从 0 到 1 亿美元、2024 年到 10 亿、2025 年到约 90–100 亿；并提到当年 1 月又新增了数十亿级别），但他认为这种曲线必然会弯折，关键在于企业落地的摩擦（合规、权限、改造旧系统等）。
对“国家级天才在数据中心（country of geniuses in a data center）”这一愿景，他给出一到三年的“直觉概率”（更保守口径是十年内极高概率），并明确区分：代码行由 AI 写 ≠ 软件工程端到端自动化 ≠ 软件工程岗位需求立刻下降。
在算力采购上，他用“提前下注”来形容：即便极看好技术进展，也可能因需求预测误差与对数回报而不能“无限加码”，否则会面临破产风险。

关键观点逐一概括

1) “大算力团块”假说：决定上限的不是花哨技巧，而是少数可规模化要素

Dario 回顾自己从 2017 年起的核心判断：真正拉开差距的往往不是“更聪明的小技巧”，而是能持续放大的要素——原始算力、数据数量、数据质量与分布广度、训练时长、可无限扩展的目标函数（如预训练目标、RL 目标）、以及确保训练稳定的归一化/条件化等工程稳定性。这也解释了为什么“看起来路线很多”（语言模型、机器人、围棋/星际/刀塔 RL 等），但最后往往收敛到“把更多资源正确地灌进系统里”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2) RL 不是“另一个世界”：当任务分布变广，同样会出现规模化

面对“现在没有公开 RL scaling law”的质疑，他的回应是：RL 也在复刻预训练的路径——从较窄的可验证任务（如数学竞赛）到更宽的任务集合（编码、更多工具/环境），规模化同样成立。他引用业内公开说法与自身观察：例如在 AIME 等数学任务上，模型表现与训练时长呈 log-linear 关系；而且这并非只发生在数学上。

3) “样本效率”之谜：模型训练更像“进化 + 学习”的混合体

主持人追问：人类并不会接触“数万亿 token”，为何模型要？Dario 的解释偏“类比框架”而非定论：

预训练/RL 可能更像介于人类进化与个体学习之间的过程：模型从随机权重开始，缺少人类“先验结构”，因此需要更大量的经验。
但一旦训练完成，长上下文下的in-context learning表现得更像“快速适应”，只是受制于推理侧的工程成本与上下文长度供给。

如果要进一步逼近“在岗位上越用越懂你”的能力，他提到一些方向：例如把可用上下文做得更长；而他认为这更像工程与推理资源问题，而非本质研究瓶颈（节目中未展开具体实现细节）。

4) 指数增长的“终点”更可能发生在扩散与闭环：快，但不会瞬间

他反复强调一个“中间世界”：

能力指数：模型能力提升仍很快；
扩散指数：落地也会很快，但不像“递归自我改进后纳秒级戴森球”那样瞬间发生。原因不是“AI 不行”，而是组织与系统摩擦：企业采购、合规审查、权限配置、旧系统改造、变更管理、把工具滚动到成千上万开发者……这些都需要时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

他也反驳“扩散只是借口”的版本：扩散确实存在，但他指的是“比历史技术扩散快得多、但仍受限”，而不是“因此一切都无关紧要”。

5) 代码革命：从“90% 代码行”到“端到端软件工程”是一条很快但分层的谱系

Dario 给出一组常被误读的分层：

90% 的代码行由模型生成：他称自己几个月前预测过这一点，并表示在 Anthropic 以及一些使用其模型的场景中“已经发生”。但他也承认这只是很弱的标准——编译器也“写了所有代码行”，关键在生产率与闭环。
端到端软件工程任务的 90% / 100%：包括搭环境、测试、上线、写设计文档/备忘录等。
岗位需求下降：即便端到端自动化，也可能出现新工作形态（更高层的管理与定义问题）。

他还给出一个“雪崩式加速”的直觉：代码工具带来的总效率提升可能正从“几乎不显著”走向“开始成为关键因素”。他举自己的估计：当前也许是 15–20% 的总因子加速，半年前可能只有 5%（因此宏观上不容易被感知）。与此同时，主持人提出外部研究中“主观觉得更快但客观产出下降”的案例，提醒大家不要只看感受；Dario 则以 Anthropic 内部“以发布结果为硬指标”的经验反驳，认为在他们那里提升很明确。

6) 为什么不把算力买到极限：提前下注的破产风险与“对数回报”

当主持人用“既然一两年内可能出现‘国家级天才’，就该买更多数据中心”质疑时，Dario 的核心回答是商业现实：数据中心要提前一两年下单与建设，而收入与需求的误差可能把公司直接推向破产。他举了一个极端推演：若按 10x 增长外推到万亿级、再据此采购，会因哪怕一两年的偏差而“没有任何对冲能救回来”。

他还补充两点：

现实中也存在供给上限：“世界上产能做不到你想签的那种数量级”。
即便技术到位，药物研发、制造、监管、全球分发等也决定了价值释放不会“瞬间完成”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

7) AI 公司如何赚钱：需求预测、训练/推理分配与对数线性收益

在“利润从何而来”的讨论里，他给出一个简化模型（并强调是玩具模型、非精确披露）：

假设算力的一部分用于推理、一部分用于训练；推理侧毛利率可能高于 50%。
你先决定买多少算力，再由市场需求“挤压/释放”训练与推理的占比：低估需求 → 更赚钱但研究算力被挤压；高估需求 → 更亏但研究算力充足。
之所以不会把 100% 都投训练，是因为没有收入就无法持续融资与采购下一年的算力；行业会形成某种均衡。
同时，由于能力提升常呈对数或 log-linear 回报，在非常高投入之后，边际收益递减，这会影响“把更多钱投到训练”是否一定比“更好地服务推理、改产品、招工程师”等更划算。

Takeaways

把“技术进展”与“落地扩散”分开看：能力曲线可能继续很陡，但组织与制度摩擦会决定价值释放的速度与形态。
用“分层指标”评估 AI 生产率：代码行占比、端到端闭环、岗位需求变化不是一回事；在决策时要明确你关心的是哪一层。
面向企业落地：把摩擦当作工程问题：合规、权限、数据接入、变更管理、旧系统重构，可能是短期内最真实的瓶颈；越早做“可被 AI 接管的工作流改造”，越能吃到扩散红利。
面向个人与团队：优先掌握可验证任务与工具链协作：数学、编码、测试、数据分析等可验证领域更容易被规模化推动；同时要把“与模型协作、定义问题、验收结果”的能力当作基础技能。
面向治理与安全：准备一个“快但不瞬间”的世界：技术与扩散都很快，但仍有窗口期；真正困难的是在窗口期内把规则、基础设施与风险控制跑通。

引用

YouTube 访谈视频：达里奥·阿莫代 —「我们正接近指数增长的终点」（Source 链接见原始对话记录）
Rich Sutton：《The Bitter Lesson》
Dario Amodei：《Machines of Loving Grace》
Dario Amodei：《The Adolescence of Technology》

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

贾子智慧理论体系（Kucius Wisdom Framework）

贾子智慧理论体系（Kucius Theory）是由学者贾龙栋（笔名贾子）提出的跨学科哲学体系，旨在为人工智能时代构建智慧判别标准与文明治理框架。该体系采用"1-2-3-4-5"层级结构：一个公理（智慧宪制）、两个规律（认识论基础）、三个哲学（核心思想）、四大支柱（理论支撑）和五大定律（实践应用）。核心创新包括首创可量化的贾子智慧指数（KWI），将智慧划分为0.25-1.00的评