AI 代理的数学天花板：一篇论文揭示大语言模型的根本局限

论文的论证建立在计算复杂性理论这一计算机科学的基石之上。任务有复杂度：有些任务需要简单的模式匹配（比如"猫的图片是什么？“），有些任务则需要长程推理、精确计算、多步验证（比如"设计一个完整的软件架构并确保没有逻辑漏洞”）。LLM 有能力边界：当任务复杂度上升到某个临界点后，基于 Transformer 架构的 LLM 会不可避免地出现错误——也就是我们常说的"幻觉"（hallucination）。

闹纳尼

443人浏览 · 2026-01-28 00:41:10

闹纳尼 · 2026-01-28 00:41:10 发布

导语：当科技巨头们争相宣称"通用人工智能即将到来"时，一篇由父子研究员合作的数学论文却给这场狂欢泼了一盆冷水。他们用计算复杂性理论证明：大语言模型（LLM）在执行复杂任务时存在无法逾越的数学边界，而这道边界，可能正是当前 AI 代理热潮的终点。

一、一篇被低估的论文

2025 年 7 月，维沙尔·西卡（Vishal Sikka）与他的儿子瓦林·西卡（Varin Sikka）在 arXiv 上发表了一篇仅 6 页的论文——《幻觉站：基于 Transformer 的语言模型的一些基本限制》（Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models）。[1]

这篇论文最初发表时并未引起太多关注，直到《连线》杂志（Wired）将其挖掘出来，随后 Gizmodo、Futurism 等科技媒体纷纷跟进报道，它才开始在 AI 圈引发震动。[2] [3] [4]

论文的核心结论简洁而有力：从计算复杂性的角度来看,当任务复杂度超过某个阈值后,LLM 既无法可靠地完成这些任务,也无法可靠地验证自己输出的正确性。 [1]

这意味着什么?意味着那些被寄予厚望的"AI 代理"——能够自主规划、执行多步骤任务、无需人工监督的智能系统——可能永远无法像承诺的那样可靠。

二、什么是"数学墙"？

复杂度的诅咒

论文的论证建立在计算复杂性理论这一计算机科学的基石之上。简单来说：

任务有复杂度：有些任务需要简单的模式匹配（比如"猫的图片是什么？“），有些任务则需要长程推理、精确计算、多步验证（比如"设计一个完整的软件架构并确保没有逻辑漏洞”）。
LLM 有能力边界：当任务复杂度上升到某个临界点后，基于 Transformer 架构的 LLM 会不可避免地出现错误——也就是我们常说的"幻觉"（hallucination）。[1]
无法自我修正：更致命的是，LLM 也无法可靠地验证自己的输出是否正确。这就像一个学生不仅做错了题，还无法通过检查发现自己的错误。[1]

这道"复杂度墙"不是工程问题（不是"数据不够多""模型不够大"能解决的），而是数学结构性问题——就像你无法用尺规作图三等分任意角一样，这是原理层面的不可能。[2] [4]

为什么 AI 代理会撞墙？

AI 代理（AI Agent）的核心特征是：长链条、多步骤、需要持续正确的"规划-执行-校验"循环。

想象一个 AI 代理要帮你：

分析市场数据
制定投资策略
执行交易
监控风险
调整策略

这个过程中，每一步都可能出错，而错误会累积。如果 LLM 在复杂度上升后无法保证可靠性，那么整个代理系统就会像多米诺骨牌一样崩溃。[3]

正如维沙尔·西卡在接受《连线》采访时所说：“它们不可能是可靠的。”（“There is no way they can be reliable.”）[4]

三、这不是第一次警告

西卡父子的论文并非孤证。过去一年里，多个研究团队从不同角度指出了 LLM 的根本局限：

苹果的"伪推理"研究

2024 年，苹果公司的研究人员发表论文指出：LLM 看起来像在推理，但实际上并不具备真正的推理能力。它们只是在进行复杂的模式匹配，而非逻辑思考。[2]

认知共振公司的"智能悖论"

认知共振公司（Cognitive Resonance）创始人本杰明·莱利（Benjamin Riley）撰文论证：由于 LLM 的工作原理（基于统计关联而非因果理解），它们永远无法达到我们所理解的"智能"水平。[2]

创造力测试的失败

还有一些研究测试了 LLM 是否能产生真正新颖的创意成果，结果令人失望——它们只是在重组训练数据中的模式，而非真正创造。[2]

西卡父子的贡献在于：他们用数学语言将这些观察提升为理论证明。

四、论文说了什么？（技术解读）

核心命题

论文从计算复杂性角度讨论 LLM 与 LLM-agent 的"幻觉/可靠性"问题，并提出两个关键主张：

主张 1：当任务复杂度超过某个阈值后，LLM 无法可靠地完成某些计算任务与代理式多步任务（agentic tasks）。[1]

主张 2：LLM 也无法可靠地验证自己输出的正确性（即不能稳定自检）。[1]

论证逻辑骨架

虽然论文使用了复杂的数学工具，但其核心逻辑可以这样理解：

形式化任务难度：将任务的"复杂度"定义为需要的计算步骤、长程一致性要求、精确验证需求等的函数。
建立能力边界：证明当任务涉及到某些高复杂度的计算或验证结构时，基于 Transformer 的 LLM 的生成式机制会出现结构性失败（不是偶然错误，而是必然失败）。
推导代理限制：由于 AI 代理需要长期稳定执行多步任务，而这要求跨越上述复杂度阈值，因此"完全自主、无需监督的通用代理"在一类任务上注定不可靠。[1]

一个关键洞察

论文特别强调：LLM 无法可靠地验证自己的输出。[1]

这意味着即使我们让 LLM"多想几步"“自我检查”，也无法从根本上解决问题。就像一个色盲者无法通过"仔细看"来正确识别颜色一样，这是能力结构的限制，而非努力程度的问题。

五、这意味着什么？

对 AI 行业的影响

AI 代理热潮需要降温：那些承诺"完全自主的 AI 员工""无需监督的智能助手"的公司，可能需要重新审视自己的技术路线。[3]
混合系统是出路：纯靠 LLM 端到端解决复杂任务行不通，但可以通过在 LLM 外围加入其他组件（检索系统、符号计算引擎、形式化验证工具、约束解算器、执行监控等）来缓解问题。[3]
人机协作而非替代：AI 更适合作为"增强工具"而非"替代者"，人类监督在可预见的未来仍然不可或缺。

对通用人工智能（AGI）的启示

埃隆·马斯克曾声称 AI 将在 2025 年底前超越人类智能。[2]

但西卡父子的论文表明：至少在当前的 LLM 架构下，这几乎不可能。通用人工智能如果要实现，可能需要根本性的架构突破，而不仅仅是"更多数据+更大模型"。

六、需要注意的边界

在接受这篇论文的结论时，我们也需要保持审慎：

1. 它针对的是特定架构

论文针对的是基于 Transformer 的 LLM，并不等于"任何 AI 系统都不行"。未来可能出现全新的架构来绕开这些限制。[1]

2. 混合系统可以缓解问题

通过将 LLM 与其他计算组件结合，可以在一定程度上突破纯 LLM 的限制。这类"混合系统"与"纯靠 LLM 端到端"不是一回事。[3]

3. 论文尚未经过同行评审

这篇论文目前是 arXiv 预印本，作者标注"拟在评审后投稿 AAAI-26"。因此应当把它当作一个值得讨论的论证，而不是已经定论的"最终证明"。[1]

七、结语：理性看待 AI 的边界

西卡父子的论文提醒我们：技术进步有其数学边界。

这不是悲观主义，而是科学理性。正如我们接受了"永动机不可能存在""信息传播不能超光速"一样，承认 LLM 的局限性，恰恰是为了更好地利用它们。

AI 的未来不在于"无所不能的超级智能"，而在于：

明确边界：知道什么能做、什么不能做
合理分工：让 AI 做它擅长的，人类做它不擅长的
持续创新：探索新架构、新方法来突破当前限制

当炒作的泡沫散去，真正的创新才会浮现。而这篇论文，或许正是这个过程的开始。

论文信息：

标题：Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models
作者：Varin Sikka, Vishal Sikka
来源：arXiv:2507.07505 [cs.CL]
链接：https://arxiv.org/abs/2507.07505
DOI：10.48550/arXiv.2507.07505

参考来源

[1]：arXiv 论文原文（标题、摘要、方法论）
[2]：Gizmodo - “AI Agents Are Poised to Hit a Mathematical Wall, Study Finds”
[3]：Futurism - “AI Agents Are Mathematically Incapable of Doing…”
[4]：Wired - “The Math on AI Agents Doesn’t Add Up”

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

026 年办公党专属 AIPPT 工具：5 款高性价比选择，大幅提升 PPT 制作效率的秘诀

2048 AI社区

MySQL 启动失败 (code=exited, status=1FAILURE) 异常解决方案

在日常运维和开发过程中，MySQL数据库的稳定运行至关重要。然而，MySQL有时会因为配置文件错误或环境问题而启动失败。本文将以 MySQL 启动失败的案例为例，详细介绍如何通过查看日志文件，定位问题并解决 MySQL 启动异常。通过上述步骤，我们成功解决了 MySQL 启动失败的问题。首先，查看 MySQL 的错误日志文件，找到具体的错误信息。通过错误提示，确定配置文件中的问题所在。修改或注释掉

2048 AI社区

提高AI模型在小样本学习任务中的泛化能力

在实际的人工智能应用场景中，获取大量有标注的数据往往是困难且昂贵的。例如在医疗领域，收集大量带有准确诊断标注的病例图像是一个耗时且成本高昂的过程；在一些新兴的工业检测场景中，由于新产品刚投入市场，可用于训练的样本数量也非常有限。小样本学习正是为了解决在数据稀缺情况下模型的学习和预测问题。本文的目的在于深入探讨如何提高AI模型在小样本学习任务中的泛化能力，使得模型在有限的样本数据下，仍能对新的数据做