Transformer 作者倒戈？Sakana AI 创始人怒批：AI 已入死胡同，Scaling Law 是这一代人的“局部最优陷阱”

作为《Attention Is All You Need》的共同作者，Llion Jones 本该是 Transformer 盛世的坚定捍卫者。然而，在创立 Sakana AI 后，他却发出了震聋发聩的警告：AI 行业正被锁死在“Transformer + Scaling”的死胡同里。本文将深度解析他的最新观点，探讨“硬件彩票”理论、“锯齿状智能”缺陷，以及试图模拟生物大脑的下一代架构——CTM（

GodGump

547人浏览 · 2026-01-28 22:34:43

GodGump · 2026-01-28 22:34:43 发布

Transformer 作者倒戈？Sakana AI 创始人怒批：AI 已入死胡同，Scaling Law 是这一代人的“局部最优陷阱”

摘要： 作为《Attention Is All You Need》的共同作者，Llion Jones 本该是 Transformer 盛世的坚定捍卫者。然而，在创立 Sakana AI 后，他却发出了震聋发聩的警告：AI 行业正被锁死在“Transformer + Scaling”的死胡同里。本文将深度解析他的最新观点，探讨“硬件彩票”理论、“锯齿状智能”缺陷，以及试图模拟生物大脑的下一代架构——CTM（连续思维机）。

引言：当“开山鼻祖”成为“掘墓人”

2017年，Google 团队发表了划时代的论文 Attention Is All You Need，彻底终结了 RNN 时代，开启了以 Transformer 为基石的生成式 AI 狂潮。作为八位作者之一的 Llion Jones，近期却在采访中抛出了一个令行业不安的观点：

“当前的 AI 研究已经陷入了死胡同（Dead End），我们在 Transformer 这块石头上打磨太久了，哪怕打磨得再光亮，它也变不成金子。”

这不仅仅是一次简单的批评，更是对当前 “Scaling Law（缩放定律）” 垄断行业资源的一次宣战。

一、成功的陷阱：路径依赖与“重力井”

1.1 房间里的氧气被吸干了

视频中引用了 OpenAI 前首席科学家 Ilya Sutskever 的一句话：“Scaling sucked the oxygen out of the room.（扩大规模吸干了房间里所有的氧气）。”

由于堆参数、堆数据（Scaling）能带来稳定且可预期的性能提升，大公司和研究机构纷纷卷入这场“参数竞赛”。这导致了严重的路径依赖：

微调的虚假繁荣： 学术界充斥着大量调整 LayerNorm 位置、修改注意力头数等“微创新”论文。这些工作本质上是在舒适区内的修修补补。
重力井效应 (Gravity Well)： Transformer 建立的生态（训练框架、部署工具、人才储备）太完善了，形成了一个巨大的引力场。任何试图跳出这个框架的新架构（比如生物启发式 AI），即便初期效果不错，也会迅速被“扩大 10 倍参数的 Transformer”碾压，从而被迫放弃。

1.2 局部最优 vs. 全局最优

Llion Jones 指出，AI 发展的历史证明，局部最优（Local Optima）永远无法替代全局最优。我们现在处于 Transformer 的局部最优中，越是努力优化它，可能离真正的 AGI（通用人工智能）越远。

二、历史的回响：硬件彩票 (The Hardware Lottery)

为什么 Transformer 战胜了 RNN（LSTM/GRU）？是因为它在算法逻辑上更“智能”吗？

Jones 提出了“硬件彩票”理论：

RNN 的失败： RNN 模拟了时间序列的迭代过程，理论上更符合人类线性的思维方式。但它的致命弱点是无法并行计算（上一步不算完，下一步没法做），且存在梯度消失问题。
Transformer 的胜利： 它的 Self-Attention 机制允许一次性输入整个序列，完美契合了 GPU 大规模并行计算的特性。

结论： Transformer 的统治地位，很大程度上是因为它中了大奖——它最适应当前的硬件环境。但这并不意味着它是通往 AGI 的唯一或最佳路径，它只是当下的“版本之子”。

三、致命缺陷：锯齿状智能 (Jagged Intelligence)

我们引以为傲的 GPT-4、Claude 3 等模型，呈现出一种极度不协调的**“锯齿状智能”**：

天才的一面： 能通过律师资格考试，能写复杂的 Python 代码。
白痴的一面： 可能会算错简单的 3 位数乘法，或者混淆基本的时间概念。

本质原因解析：
Transformer 本质上是一个静态的统计语言模型。它并不“理解”世界，它只是在海量文本中寻找概率关联。

它没有世界模型 (World Model)。
它缺乏动态推理过程。
它是一次性（One-pass）的计算网络，输入进去，经过几十层矩阵乘法，结果就出来了。中间没有“停下来思考”的过程。

四、破局者：CTM 连续思维机 (Continuous Thought Machine)

Sakana AI 并未选择参与千亿、万亿参数大模型的竞争，而是回归生物学寻找灵感，提出了 CTM 架构。

4.1 核心理念：从“映射”到“演化”

人类大脑的神经元并非静态的映射函数。即使没有外部输入，大脑内部的神经元也在进行同步震荡和动态连接。CTM 试图模拟这种 非线性动力学系统 的特性。

4.2 技术对比：Transformer vs. CTM

维度	Transformer	CTM (Continuous Thought Machine)
计算流	前馈/一次性输入直接流向输出，中间状态无停留。	连续/循环引入“内部思考时间”维度，状态持续演化。
深度定义	物理层数固定模型深度由堆叠的层数决定，单次推理计算量固定。	时间步可变深度体现为可变的演化时间步，推理计算量可自适应调整。
处理难题	计算量恒定无论问题复杂与否，前向传播的计算开销基本相同。	自适应计算系统可分配不同的“思考时长”，简单问题快速响应，难题则多“想”一会儿。
不确定性处理	外挂或采样依赖外部设计的概率模块或复杂的采样策略来引入随机性。	内建随机演化架构本身建模了状态的随机性和不确定性演化过程。

4.3 CTM 的工作流（简化版）

编码： 将输入（如文本、图像）转化为初始的神经动态表示。
演化（思考）： 通过动态耦合机制，让内部状态在抽象的“思考空间”中持续演化。此过程模拟了人类的“沉思”，时间步长可根据需要调整。
解码： 当系统状态达到收敛或满足预设的停止条件时，将最终状态解码为输出（如答案、决策）。

五、对开发者的启示：范式转移正在发生

Llion Jones 的访谈不仅是技术探讨，更是一种科学社会学的反思。他提到了托马斯·库恩的“范式转移” (Paradigm Shift)。

现在的 AI 行业就像当年的“符号主义”末期，或者“RNN”末期。旧的范式依然强大且有利可图，但边际效应正在递减。

给 CSDN 读者的建议：

不要迷信 Scaling Law： 如果你的资源拼不过 OpenAI 和 Google，请不要在“堆参数”这条赛道上死磕。
关注“非主流”架构： 神经动力学、生物启发式 AI、类脑计算等目前看似冷门的方向，极有可能诞生下一个 Transformer 级别的突破。
理解模型局限： 在落地应用时，要清晰地认识到 LLM 的“统计学本质”。不要强求大模型做严密的逻辑推理，那是它的短板；用 RAG 或 Agent 框架来弥补，或者期待像 CTM 这样具有“推理时间”的新架构成熟。