AI 代理的数学天花板:一篇论文揭示大语言模型的根本局限
论文的论证建立在计算复杂性理论这一计算机科学的基石之上。任务有复杂度:有些任务需要简单的模式匹配(比如"猫的图片是什么?“),有些任务则需要长程推理、精确计算、多步验证(比如"设计一个完整的软件架构并确保没有逻辑漏洞”)。LLM 有能力边界:当任务复杂度上升到某个临界点后,基于 Transformer 架构的 LLM 会不可避免地出现错误——也就是我们常说的"幻觉"(hallucination)。
导语:当科技巨头们争相宣称"通用人工智能即将到来"时,一篇由父子研究员合作的数学论文却给这场狂欢泼了一盆冷水。他们用计算复杂性理论证明:大语言模型(LLM)在执行复杂任务时存在无法逾越的数学边界,而这道边界,可能正是当前 AI 代理热潮的终点。
一、一篇被低估的论文
2025 年 7 月,维沙尔·西卡(Vishal Sikka)与他的儿子瓦林·西卡(Varin Sikka)在 arXiv 上发表了一篇仅 6 页的论文——《幻觉站:基于 Transformer 的语言模型的一些基本限制》(Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models)。[1]
这篇论文最初发表时并未引起太多关注,直到《连线》杂志(Wired)将其挖掘出来,随后 Gizmodo、Futurism 等科技媒体纷纷跟进报道,它才开始在 AI 圈引发震动。[2] [3] [4]
论文的核心结论简洁而有力:从计算复杂性的角度来看,当任务复杂度超过某个阈值后,LLM 既无法可靠地完成这些任务,也无法可靠地验证自己输出的正确性。 [1]
这意味着什么?意味着那些被寄予厚望的"AI 代理"——能够自主规划、执行多步骤任务、无需人工监督的智能系统——可能永远无法像承诺的那样可靠。
二、什么是"数学墙"?
复杂度的诅咒
论文的论证建立在计算复杂性理论这一计算机科学的基石之上。简单来说:
-
任务有复杂度:有些任务需要简单的模式匹配(比如"猫的图片是什么?“),有些任务则需要长程推理、精确计算、多步验证(比如"设计一个完整的软件架构并确保没有逻辑漏洞”)。
-
LLM 有能力边界:当任务复杂度上升到某个临界点后,基于 Transformer 架构的 LLM 会不可避免地出现错误——也就是我们常说的"幻觉"(hallucination)。[1]
-
无法自我修正:更致命的是,LLM 也无法可靠地验证自己的输出是否正确。这就像一个学生不仅做错了题,还无法通过检查发现自己的错误。[1]
这道"复杂度墙"不是工程问题(不是"数据不够多""模型不够大"能解决的),而是数学结构性问题——就像你无法用尺规作图三等分任意角一样,这是原理层面的不可能。[2] [4]
为什么 AI 代理会撞墙?
AI 代理(AI Agent)的核心特征是:长链条、多步骤、需要持续正确的"规划-执行-校验"循环。
想象一个 AI 代理要帮你:
- 分析市场数据
- 制定投资策略
- 执行交易
- 监控风险
- 调整策略
这个过程中,每一步都可能出错,而错误会累积。如果 LLM 在复杂度上升后无法保证可靠性,那么整个代理系统就会像多米诺骨牌一样崩溃。[3]
正如维沙尔·西卡在接受《连线》采访时所说:“它们不可能是可靠的。”(“There is no way they can be reliable.”)[4]
三、这不是第一次警告
西卡父子的论文并非孤证。过去一年里,多个研究团队从不同角度指出了 LLM 的根本局限:
苹果的"伪推理"研究
2024 年,苹果公司的研究人员发表论文指出:LLM 看起来像在推理,但实际上并不具备真正的推理能力。它们只是在进行复杂的模式匹配,而非逻辑思考。[2]
认知共振公司的"智能悖论"
认知共振公司(Cognitive Resonance)创始人本杰明·莱利(Benjamin Riley)撰文论证:由于 LLM 的工作原理(基于统计关联而非因果理解),它们永远无法达到我们所理解的"智能"水平。[2]
创造力测试的失败
还有一些研究测试了 LLM 是否能产生真正新颖的创意成果,结果令人失望——它们只是在重组训练数据中的模式,而非真正创造。[2]
西卡父子的贡献在于:他们用数学语言将这些观察提升为理论证明。
四、论文说了什么?(技术解读)
核心命题
论文从计算复杂性角度讨论 LLM 与 LLM-agent 的"幻觉/可靠性"问题,并提出两个关键主张:
主张 1:当任务复杂度超过某个阈值后,LLM 无法可靠地完成某些计算任务与代理式多步任务(agentic tasks)。[1]
主张 2:LLM 也无法可靠地验证自己输出的正确性(即不能稳定自检)。[1]
论证逻辑骨架
虽然论文使用了复杂的数学工具,但其核心逻辑可以这样理解:
-
形式化任务难度:将任务的"复杂度"定义为需要的计算步骤、长程一致性要求、精确验证需求等的函数。
-
建立能力边界:证明当任务涉及到某些高复杂度的计算或验证结构时,基于 Transformer 的 LLM 的生成式机制会出现结构性失败(不是偶然错误,而是必然失败)。
-
推导代理限制:由于 AI 代理需要长期稳定执行多步任务,而这要求跨越上述复杂度阈值,因此"完全自主、无需监督的通用代理"在一类任务上注定不可靠。[1]
一个关键洞察
论文特别强调:LLM 无法可靠地验证自己的输出。[1]
这意味着即使我们让 LLM"多想几步"“自我检查”,也无法从根本上解决问题。就像一个色盲者无法通过"仔细看"来正确识别颜色一样,这是能力结构的限制,而非努力程度的问题。
五、这意味着什么?
对 AI 行业的影响
-
AI 代理热潮需要降温:那些承诺"完全自主的 AI 员工""无需监督的智能助手"的公司,可能需要重新审视自己的技术路线。[3]
-
混合系统是出路:纯靠 LLM 端到端解决复杂任务行不通,但可以通过在 LLM 外围加入其他组件(检索系统、符号计算引擎、形式化验证工具、约束解算器、执行监控等)来缓解问题。[3]
-
人机协作而非替代:AI 更适合作为"增强工具"而非"替代者",人类监督在可预见的未来仍然不可或缺。
对通用人工智能(AGI)的启示
埃隆·马斯克曾声称 AI 将在 2025 年底前超越人类智能。[2]
但西卡父子的论文表明:至少在当前的 LLM 架构下,这几乎不可能。通用人工智能如果要实现,可能需要根本性的架构突破,而不仅仅是"更多数据+更大模型"。
六、需要注意的边界
在接受这篇论文的结论时,我们也需要保持审慎:
1. 它针对的是特定架构
论文针对的是基于 Transformer 的 LLM,并不等于"任何 AI 系统都不行"。未来可能出现全新的架构来绕开这些限制。[1]
2. 混合系统可以缓解问题
通过将 LLM 与其他计算组件结合,可以在一定程度上突破纯 LLM 的限制。这类"混合系统"与"纯靠 LLM 端到端"不是一回事。[3]
3. 论文尚未经过同行评审
这篇论文目前是 arXiv 预印本,作者标注"拟在评审后投稿 AAAI-26"。因此应当把它当作一个值得讨论的论证,而不是已经定论的"最终证明"。[1]
七、结语:理性看待 AI 的边界
西卡父子的论文提醒我们:技术进步有其数学边界。
这不是悲观主义,而是科学理性。正如我们接受了"永动机不可能存在""信息传播不能超光速"一样,承认 LLM 的局限性,恰恰是为了更好地利用它们。
AI 的未来不在于"无所不能的超级智能",而在于:
- 明确边界:知道什么能做、什么不能做
- 合理分工:让 AI 做它擅长的,人类做它不擅长的
- 持续创新:探索新架构、新方法来突破当前限制
当炒作的泡沫散去,真正的创新才会浮现。而这篇论文,或许正是这个过程的开始。
论文信息:
- 标题:Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models
- 作者:Varin Sikka, Vishal Sikka
- 来源:arXiv:2507.07505 [cs.CL]
- 链接:https://arxiv.org/abs/2507.07505
- DOI:10.48550/arXiv.2507.07505
参考来源
- [1]:arXiv 论文原文(标题、摘要、方法论)
- [2]:Gizmodo - “AI Agents Are Poised to Hit a Mathematical Wall, Study Finds”
- [3]:Futurism - “AI Agents Are Mathematically Incapable of Doing…”
- [4]:Wired - “The Math on AI Agents Doesn’t Add Up”
更多推荐

所有评论(0)