Transformer 作者倒戈?Sakana AI 创始人怒批:AI 已入死胡同,Scaling Law 是这一代人的“局部最优陷阱”
作为《Attention Is All You Need》的共同作者,Llion Jones 本该是 Transformer 盛世的坚定捍卫者。然而,在创立 Sakana AI 后,他却发出了震聋发聩的警告:AI 行业正被锁死在“Transformer + Scaling”的死胡同里。本文将深度解析他的最新观点,探讨“硬件彩票”理论、“锯齿状智能”缺陷,以及试图模拟生物大脑的下一代架构——CTM(
Transformer 作者倒戈?Sakana AI 创始人怒批:AI 已入死胡同,Scaling Law 是这一代人的“局部最优陷阱”
摘要: 作为《Attention Is All You Need》的共同作者,Llion Jones 本该是 Transformer 盛世的坚定捍卫者。然而,在创立 Sakana AI 后,他却发出了震聋发聩的警告:AI 行业正被锁死在“Transformer + Scaling”的死胡同里。本文将深度解析他的最新观点,探讨“硬件彩票”理论、“锯齿状智能”缺陷,以及试图模拟生物大脑的下一代架构——CTM(连续思维机)。
引言:当“开山鼻祖”成为“掘墓人”
2017年,Google 团队发表了划时代的论文 Attention Is All You Need,彻底终结了 RNN 时代,开启了以 Transformer 为基石的生成式 AI 狂潮。作为八位作者之一的 Llion Jones,近期却在采访中抛出了一个令行业不安的观点:
“当前的 AI 研究已经陷入了死胡同(Dead End),我们在 Transformer 这块石头上打磨太久了,哪怕打磨得再光亮,它也变不成金子。”
这不仅仅是一次简单的批评,更是对当前 “Scaling Law(缩放定律)” 垄断行业资源的一次宣战。
一、 成功的陷阱:路径依赖与“重力井”
1.1 房间里的氧气被吸干了
视频中引用了 OpenAI 前首席科学家 Ilya Sutskever 的一句话:“Scaling sucked the oxygen out of the room.(扩大规模吸干了房间里所有的氧气)。”
由于堆参数、堆数据(Scaling)能带来稳定且可预期的性能提升,大公司和研究机构纷纷卷入这场“参数竞赛”。这导致了严重的路径依赖:
- 微调的虚假繁荣: 学术界充斥着大量调整 LayerNorm 位置、修改注意力头数等“微创新”论文。这些工作本质上是在舒适区内的修修补补。
- 重力井效应 (Gravity Well): Transformer 建立的生态(训练框架、部署工具、人才储备)太完善了,形成了一个巨大的引力场。任何试图跳出这个框架的新架构(比如生物启发式 AI),即便初期效果不错,也会迅速被“扩大 10 倍参数的 Transformer”碾压,从而被迫放弃。
1.2 局部最优 vs. 全局最优
Llion Jones 指出,AI 发展的历史证明,局部最优(Local Optima)永远无法替代全局最优。我们现在处于 Transformer 的局部最优中,越是努力优化它,可能离真正的 AGI(通用人工智能)越远。
二、 历史的回响:硬件彩票 (The Hardware Lottery)
为什么 Transformer 战胜了 RNN(LSTM/GRU)?是因为它在算法逻辑上更“智能”吗?
Jones 提出了“硬件彩票”理论:
- RNN 的失败: RNN 模拟了时间序列的迭代过程,理论上更符合人类线性的思维方式。但它的致命弱点是无法并行计算(上一步不算完,下一步没法做),且存在梯度消失问题。
- Transformer 的胜利: 它的 Self-Attention 机制允许一次性输入整个序列,完美契合了 GPU 大规模并行计算的特性。
结论: Transformer 的统治地位,很大程度上是因为它中了大奖——它最适应当前的硬件环境。但这并不意味着它是通往 AGI 的唯一或最佳路径,它只是当下的“版本之子”。
三、 致命缺陷:锯齿状智能 (Jagged Intelligence)
我们引以为傲的 GPT-4、Claude 3 等模型,呈现出一种极度不协调的**“锯齿状智能”**:
- 天才的一面: 能通过律师资格考试,能写复杂的 Python 代码。
- 白痴的一面: 可能会算错简单的 3 位数乘法,或者混淆基本的时间概念。
本质原因解析:
Transformer 本质上是一个静态的统计语言模型。它并不“理解”世界,它只是在海量文本中寻找概率关联。
- 它没有世界模型 (World Model)。
- 它缺乏动态推理过程。
它是一次性(One-pass)的计算网络,输入进去,经过几十层矩阵乘法,结果就出来了。中间没有“停下来思考”的过程。
四、破局者:CTM 连续思维机 (Continuous Thought Machine)
Sakana AI 并未选择参与千亿、万亿参数大模型的竞争,而是回归生物学寻找灵感,提出了 CTM 架构。
4.1 核心理念:从“映射”到“演化”
人类大脑的神经元并非静态的映射函数。即使没有外部输入,大脑内部的神经元也在进行同步震荡和动态连接。CTM 试图模拟这种 非线性动力学系统 的特性。
4.2 技术对比:Transformer vs. CTM
| 维度 | Transformer | CTM (Continuous Thought Machine) |
|---|---|---|
| 计算流 | 前馈/一次性 输入直接流向输出,中间状态无停留。 |
连续/循环 引入“内部思考时间”维度,状态持续演化。 |
| 深度定义 | 物理层数固定 模型深度由堆叠的层数决定,单次推理计算量固定。 |
时间步可变 深度体现为可变的演化时间步,推理计算量可自适应调整。 |
| 处理难题 | 计算量恒定 无论问题复杂与否,前向传播的计算开销基本相同。 |
自适应计算 系统可分配不同的“思考时长”,简单问题快速响应,难题则多“想”一会儿。 |
| 不确定性处理 | 外挂或采样 依赖外部设计的概率模块或复杂的采样策略来引入随机性。 |
内建随机演化 架构本身建模了状态的随机性和不确定性演化过程。 |
4.3 CTM 的工作流(简化版)
- 编码: 将输入(如文本、图像)转化为初始的神经动态表示。
- 演化(思考): 通过动态耦合机制,让内部状态在抽象的“思考空间”中持续演化。此过程模拟了人类的“沉思”,时间步长可根据需要调整。
- 解码: 当系统状态达到收敛或满足预设的停止条件时,将最终状态解码为输出(如答案、决策)。
五、 对开发者的启示:范式转移正在发生
Llion Jones 的访谈不仅是技术探讨,更是一种科学社会学的反思。他提到了托马斯·库恩的“范式转移” (Paradigm Shift)。
现在的 AI 行业就像当年的“符号主义”末期,或者“RNN”末期。旧的范式依然强大且有利可图,但边际效应正在递减。
给 CSDN 读者的建议:
- 不要迷信 Scaling Law: 如果你的资源拼不过 OpenAI 和 Google,请不要在“堆参数”这条赛道上死磕。
- 关注“非主流”架构: 神经动力学、生物启发式 AI、类脑计算等目前看似冷门的方向,极有可能诞生下一个 Transformer 级别的突破。
- 理解模型局限: 在落地应用时,要清晰地认识到 LLM 的“统计学本质”。不要强求大模型做严密的逻辑推理,那是它的短板;用 RAG 或 Agent 框架来弥补,或者期待像 CTM 这样具有“推理时间”的新架构成熟。
结语
历史不会重复,但会押韵。Transformer 曾是打破 RNN 枷锁的屠龙少年,如今它已变成盘踞在资源之上的恶龙。Sakana AI 和 CTM 能否成为下一位屠龙者?让我们拭目以待。
更多推荐



所有评论(0)