【杂谈】-自信的错误:为何最聪明的AI模型在自我纠正上表现很差
人工智能领域的诸多专家认为,下一场重大变革将是人工智能实现自我改进的时代,届时,人工智能无需人工干预便能实现自我提升。
自信的错误:为何最聪明的AI模型在自我纠正上表现很差
文章目录
人工智能领域的诸多专家认为,下一场重大变革将是人工智能实现自我改进的时代,届时,人工智能无需人工干预便能实现自我提升。他们的论点是:随着模型能力的持续增强,它们最终不仅能从数据中学习,还能从自身经历中汲取经验。每一次迭代都会在前一次的基础上进行优化,错误将被识别、纠正并消除。假以时日,这种不断累积的改进可能会引发智能爆炸,届时,人工智能将开始自主构建人工智能。这一愿景是递归人工智能、自主代理以及人们翘首以盼的智能爆炸的核心所在。而这一愿景的关键,在于人工智能系统能够可靠地纠正自身的错误。然而,若没有强大的自我纠正机制,自我改进便无从谈起。一个无法识别自身错误的系统,无论其表面上看起来多么强大,都无法从自身的输出中有效地学习。
目前,普遍认为随着模型能力的增强,自我纠正机制会自然而然地出现。这种观点看似符合直觉。毕竟,更强大的模型拥有更丰富的知识、更强的推理能力,并且在各种任务中都能表现出色。然而,近期的研究揭示了一个与直觉相悖的现象:更高级的模型往往难以纠正自身的错误,而相对较弱的模型反而更擅长自我纠正。这种被称为“准确率 - 纠错悖论”的现象,迫使我们重新审视人工智能系统的推理方式,以及我们是否真的准备好迎接能够自我改进的人工智能。
1、理解自改进型人工智能
自改进型人工智能是指能够识别自身错误、从中学习并迭代改进自身行为的人工智能系统。与传统仅依赖人工训练数据的模型不同,自改进型人工智能会主动评估自身的输出,并随着时间的推移进行调整。理论上,这将形成一个反馈循环,每个学习周期都建立在前一个周期的基础上,从而产生通常所说的“智能爆炸”。
但实现这一目标绝非易事。自改进需要的不仅仅是强大的计算能力或更大的数据集。它需要可靠的自我评估能力,包括检测错误、识别错误根源以及生成正确解决方案的能力。如果没有这些能力,模型就无法区分正确的推理路径和错误的推理路径。无论迭代速度多快,反复迭代错误的解决方案只会强化错误,而不会提升性能。
这种区别至关重要。在人类中,从错误中学习通常涉及反思、假设检验和纠正错误。对于人工智能而言,这些过程必须编码在系统自身内部。如果一个模型无法可靠地识别和纠正自身错误,它就无法有效地参与自我改进循环,递归智能的愿景也只能停留在理论层面,而无法付诸实践。
2、准确性 - 纠错悖论
自我纠错通常被视为一种单一能力,但实际上它结合了几种不同的能力,必须分别予以考虑。至少,我们可以将其分解为三个可衡量的子能力:错误检测、错误定位或源检测以及错误纠正。错误检测是指模型能否识别出其输出的错误。错误定位侧重于识别错误发生的位置。错误纠正则是指生成正确解决方案的能力。
通过分别衡量这些能力,研究人员揭示了当前系统局限性的重要见解。他们发现,不同模型在这些能力上的表现差异显著。有些模型擅长检测错误,但难以纠正错误。另一些模型几乎无法识别错误,却仍然能够通过反复尝试来纠正错误。更重要的是,这些发现表明,某一领域的进步并不能保证其他领域的进步。
当研究人员测试高级模型在复杂数学推理任务上的表现时,这些模型犯的错误更少。这部分在意料之中。出乎意料的是,他们发现:当这些模型犯错时,它们更难自行纠正。相反,较弱的模型虽然犯的错误更多,但在没有外部反馈的情况下,它们纠正错误的能力却显著更强。换句话说,研究人员发现准确性和自我纠正能力的发展方向相反,他们将这种悖论称为“准确性 - 纠正悖论”。这一发现挑战了人工智能发展领域一个根深蒂固的信念。我们通常认为,扩展模型可以提升智能的各个方面。然而,这一悖论表明,这种假设并非总是成立,尤其是在内省能力方面。
3、错误深度假设
这个悖论引出了一个显而易见的问题:为什么较弱的模型在自我纠错方面表现优于较强的模型?研究人员通过分析模型产生的错误类型找到了答案。他们发现,较强的模型产生的错误更少,但它们产生的错误“更深”,更难纠正。相反,较弱的模型产生的错误“更浅”,在第二次迭代中很容易纠正。
研究人员将这一发现称为错误深度假设。他们将错误分为设置错误、逻辑错误和计算错误。设置错误是指对问题的误解。逻辑错误是指推理路径存在结构性缺陷。计算错误是指简单的算术错误。对于GPT - 3.5来说,大多数错误(62%)都是简单的计算错误。这些是浅层错误。当被提示“仔细检查”时,模型通常可以找到并纠正这些计算错误。然而,对于DeepSeek来说,77%的错误是设置错误或逻辑错误。这些深层次的错误要求模型从根本上重新思考其方法。强大的模型难以做到这一点,因为它们往往会固守最初的推理路径。随着模型智能的提升,只有最具韧性和最难纠正的错误才会保留下来。
4、为什么检测到错误并不保证能够纠正它们
这项研究最令人惊讶的发现之一是,错误检测与纠正错误的能力并不相关。一个模型可能正确地识别出其答案是错误的,但却无法纠正它。另一个模型可能几乎检测不到错误,但却能通过反复重新求解而改进。Claude - 3 - Haiku提供了一个最显著的例子。Claude只检测到了自身错误率的10.1%,是所有测试模型中最低的。尽管检测率很低,但它的内在纠正率却达到了最高的29.1%。相比之下,GPT - 3.5检测到了自身错误率的81.5%,但只纠正了26.8%。
这表明,有些模型可能会“意外地”纠正错误,它们只需通过不同的采样路径重新解决问题,即使它们并未意识到第一次尝试是错误的。这种脱节对于实际部署来说是危险的。当模型过于自信且未能检测到自身的逻辑错误时,它可能会将看似合理但完全错误的解释当作真理。在某些情况下,引导模型识别自身错误反而会使情况变得更糟。当模型错误地识别出错误所在时,它会固守于有缺陷的解释,并加倍纠缠于错误之中。自我生成的提示非但不会带来帮助,反而会使模型锁定在错误的推理路径中。这种行为反映了人类的认知偏差。一旦我们认为我们知道了哪里出了问题,我们就会停止探寻更深层次的原因。
5、迭代有益,但效果不尽相同
研究还表明,迭代反思通常可以改善结果,但并非所有模型都能以相同的方式受益。较弱的模型可以从多轮反思中获益匪浅,因为每次迭代都给了它们一次修复表面问题的机会。更强大的模型从迭代中获得的收益要小得多。它们的错误很难通过重复来纠正。如果没有外部指导,额外的尝试往往会用不同的方式重现同样的错误推理。这一发现表明,自我改进技术并非普遍有效。它们的成功取决于错误的性质,而不仅仅是模型的智能程度。
6、这对人工智能系统设计意味着什么
这些见解具有实际意义。首先,我们应该停止假设更高的准确率意味着更好的自纠错能力。依赖自主改进的系统需要针对其纠错行为进行明确的测试,而不仅仅是最终性能。其次,不同的模型可能需要不同的干预策略。较弱的模型可能受益于简单的验证和迭代。较强的模型可能需要外部反馈、结构化验证或基于工具的检查来克服深层推理错误。第三,自纠错流程应该具备错误感知能力。了解一项任务容易出现浅层错误还是深层错误,可以帮助判断自纠错是否可能有效。最后,评估基准应该将检测、定位和纠错分开。将它们视为单一指标会掩盖在实际部署中至关重要的弱点。
7、结论
自我改进的人工智能不仅依赖于产生正确的答案,还依赖于识别、诊断和修正错误答案的能力。准确性修正悖论表明,更强大的模型并不一定更擅长这项任务。随着模型能力的提升,它们的错误会变得更深、更难检测,也更难自我修正。这意味着仅仅提升模型规模是不够的。如果我们想要真正能够从自身错误中学习的人工智能系统,就必须将自我修正视为一种独立的能力,并对其进行明确的测量、训练和支持。
更多推荐


所有评论(0)