这项由腾讯AI实验室联合北卡罗来纳大学教堂山分校、弗吉尼亚大学和马里兰大学学院公园分校的研究团队完成的突破性研究,于2025年9月11日发表在arXiv预印本平台上。论文标题为《CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models》,有兴趣深入了解的读者可以通过arXiv:2509.09675v1访问完整论文。

想象一下,你正在教一个孩子学数学。传统的方法可能是让孩子反复练习标准题目,直到他们能够熟练解答。但是,聪明的父母都知道,最好的学习往往来自孩子自己的好奇心驱动的探索。当孩子对某个问题特别感兴趣时,他们会更加投入地思考,更愿意尝试不同的解决方法,最终获得更深刻的理解。

腾讯AI实验室的研究团队发现,目前的大语言模型在学习推理能力时就像那些被束缚在标准教室里的学生,虽然能够解决一些问题,但缺乏真正的探索精神。这些模型往往会过早地满足于找到一种看似正确的解决方案,然后就停止尝试其他可能性,就像学生找到一道题的标准答案后就不再思考是否还有更优雅的解法一样。

研究团队意识到,这种"浅尝辄止"的学习方式正是当前大语言模型推理能力提升的最大障碍。在强化学习领域,这被称为"熵崩塌"现象,就好比一个探险家在发现第一座小山丘后就认为自己已经征服了整片山脉,不再向更高更远的地方进发。

为了解决这个问题,研究团队开发了一套名为"好奇心驱动探索"(Curiosity-Driven Exploration,简称CDE)的全新框架。这个框架的核心思想非常简单而巧妙:让人工智能模型像真正的孩子一样,对自己不熟悉或不确定的内容保持好奇心,主动去探索那些未知的领域。

这就像给模型装上了两个不同的"好奇心传感器"。第一个传感器关注的是模型本身对自己生成的答案有多大把握。当模型对某个答案感到意外或困惑时,这个传感器就会发出信号,提示模型:"嘿,这里可能有些值得探索的新东西!"第二个传感器则像一个智慧的老师,通过观察多个不同"学生版本"的模型对同一个问题的不同看法,来判断哪些地方还存在不确定性,需要进一步探索。

研究团队将这套方法应用到数学推理任务上进行测试,结果令人振奋。在包括AIME(美国数学邀请赛)等多个具有挑战性的数学基准测试中,使用了好奇心驱动探索框架的模型比传统方法平均提升了约3个百分点的准确率。这个提升幅度看似不大,但在这些极具挑战性的数学问题上,每一个百分点的提升都代表着巨大的进步。

更有趣的是,研究团队在深入分析训练过程时,发现了一个他们称为"校准崩塌"的现象。简单来说,就是传统训练方法下的模型会逐渐失去对自己能力的准确判断,变得要么过分自信,要么过分保守,就像一个学生要么盲目自大,要么妄自菲薄,都无法准确评估自己的真实水平。而使用了好奇心驱动探索的模型则能够更好地保持这种自我认知的准确性。

一、传统方法的困境:当探险家失去好奇心

要理解这项研究的价值,我们首先需要了解当前大语言模型在学习推理时面临的核心挑战。

在过去的几年里,研究者们发现了一种被称为"可验证奖励强化学习"(RLVR)的训练方法。这种方法的基本思路很直观:给模型一道数学题,让它写出完整的解题过程,然后检查最终答案是否正确。如果答案对了,就给模型一个正面奖励;如果答案错了,就给一个负面奖励。通过这种方式,模型逐渐学会产生更多正确的答案。

这种方法在一开始确实很有效,就像教孩子做题时用对错来指导一样。但是,研究团队发现了一个严重的问题:模型很容易陷入一种叫做"过早收敛"的状态。具体来说,模型一旦找到一种能够产生正确答案的解题思路,就会过度依赖这种思路,不再尝试探索其他可能的解法。

这就像一个学生学会了用最基础的方法解决某类数学题后,就再也不愿意尝试更巧妙或更深入的解法。虽然这样也能解决问题,但无法获得真正深刻的数学理解,也无法应对那些需要创新思维的难题。

更糟糕的是,研究团队观察到一种叫做"熵崩塌"的现象。熵在这里可以理解为模型行为的多样性。当熵崩塌发生时,模型的行为变得越来越单一化,就像一个原本充满创造力的艺术家逐渐只会画同一种风格的画作一样。模型失去了探索新思路的动力,变得保守而缺乏创新。

研究团队首先尝试了一些现有的探索方法。其中一种是基于计数的探索,基本思路是记录模型曾经尝试过的解题思路,然后鼓励模型去尝试那些很少被探索过的新思路。这就像记录一个探险家走过的所有路径,然后提醒他去走那些还没有走过的路。

但是,当研究团队实际测试这种方法时,他们发现了一个技术性的难题。由于数学推理过程往往很长很复杂,要准确记录和区分不同的推理路径是极其困难的。研究团队使用了一种叫做SimHash的技术来简化这个过程,但结果发现大部分的推理过程都被归类到了相同或相似的类别中。这就像试图用有限的标签来区分无穷无尽的思考方式,结果大部分思考都被贴上了同样的标签,失去了区分的意义。

面对这些挑战,研究团队意识到他们需要一种全新的思路。与其试图从外部记录和分析模型的行为,为什么不让模型自己来判断什么是新奇的、值得探索的内容呢?

二、仿生学启发:从儿童学习中获得的智慧

研究团队的突破性洞察来自对儿童学习过程的观察。当我们仔细观察一个孩子如何学习新事物时,会发现他们有一种天然的好奇心机制。孩子遇到熟悉的情况时会表现得很自信,而遇到新奇或困惑的情况时会表现出更强的探索欲望。

这种好奇心不是来自外部的统计数据或复杂的计算,而是来自孩子内心对自己理解程度的直觉判断。当孩子对某个现象感到困惑时,他们会自然地想要深入了解;当他们对某个解释感到不确定时,会主动寻求更多的信息和验证。

基于这个观察,研究团队提出了一个核心假设:大语言模型经过大量文本的训练,已经内化了一种对推理模式熟悉程度的直觉。当模型生成一个它自己都觉得意外的推理过程时,这通常意味着它正在探索一个相对陌生的领域。反过来,当模型生成一个它觉得非常自然和熟悉的推理过程时,这可能意味着它正在重复已经掌握的模式。

这个想法听起来很简单,但实际实现起来需要巧妙的技术设计。研究团队开发了两套相互配合的"好奇心传感器"来捕捉模型的这种内在直觉。

第一套传感器关注的是"演员好奇心"(Actor Curiosity)。这里的"演员"是强化学习中的一个术语,指的是实际生成推理过程的模型部分。演员好奇心的衡量标准非常直观:看模型对自己生成的内容有多"意外"。

具体来说,研究团队使用了一个叫做"困惑度"(Perplexity)的指标。困惑度可以理解为模型生成某段文本时的"意外程度"。当模型生成一个对它自己来说很意外的推理步骤时,困惑度就会比较高;当模型生成一个它觉得很自然的推理步骤时,困惑度就会比较低。

这就像一个数学家在解题时的内心独白。当他写下一个连自己都觉得巧妙或出乎意料的推理步骤时,内心会有一种"哇,这个想法很有趣"的感觉。相反,当他写下一个非常标准和熟悉的推理步骤时,内心可能只是平静地想"这是个常规操作"。

第二套传感器关注的是"评论家好奇心"(Critic Curiosity)。在强化学习中,评论家的作用是评估当前状态或行为的价值。研究团队设计了一个多头评论家系统,就像邀请多位专家对同一个推理过程进行评估。

当这些专家对某个推理过程的评估比较一致时,说明这个推理过程相对成熟和可预测。但当专家们的意见分歧很大时,就说明这个推理过程可能涉及一些不确定或需要进一步探索的领域。这种意见分歧本身就是一种好奇心的信号:既然连专家们都无法达成一致,那这里肯定有值得深入研究的内容。

这两套传感器的设计体现了研究团队的一个重要理念:让模型自己来判断什么值得探索,而不是依赖外部的复杂统计或计算。这种方法不仅更加直观和自然,而且计算效率也更高。

三、技术实现:两个好奇心传感器的精妙设计

研究团队在技术实现上展现了相当的巧思。他们需要将抽象的"好奇心"概念转化为具体可计算的数值,并且确保这些数值能够有效指导模型的学习过程。

演员好奇心的实现相对直接。模型在生成推理过程时,每写出一个词语或符号,都会计算生成这个词语的概率。困惑度就是这些概率的几何平均数的倒数。当模型生成的内容连它自己都觉得意外时,这些概率就会比较低,困惑度就会比较高。

但是,简单地将困惑度作为探索奖励会带来问题。如果奖励过高,模型可能会为了获得奖励而故意生成一些毫无意义的胡言乱语,因为胡言乱语通常具有很高的困惑度。这就像一个学生为了显得有创意而在考试中写一些完全不相关的内容。

为了避免这个问题,研究团队设计了一个巧妙的奖励调节机制。他们将好奇心奖励的大小限制在原始任务奖励的一定比例内。这样,模型既能获得探索新思路的动机,又不会完全偏离解决原问题的目标。

更有趣的是,研究团队发现这种设计具有一个意想不到的好处:它能够自动区别对待正确答案和错误答案。对于正确答案,如果模型觉得意外(高困惑度),说明它发现了一种新的有效解法,应该获得更多奖励。但对于错误答案,如果模型觉得很自然(低困惑度),说明它可能陷入了某种错误的思维定式,应该受到更多惩罚。

研究团队通过理论分析证明了这种机制的合理性。他们证明,在这种奖励机制下,模型会自然地倾向于保持对正确答案的多样性探索,同时抑制对错误答案的过度自信。这就像一个理想的学习环境,鼓励学生对正确方法进行创新,但不容忍对错误方法的固执。

评论家好奇心的实现则更加巧妙。研究团队设计了一个多头评论家系统,其中每个"头"都是一个独立的价值评估网络。这些评估网络具有相同的架构,但在训练时使用不同的数据子集。

这种设计类似于组织一个专家小组来评估复杂问题。每个专家都受过相似的训练,但由于各自的经验略有不同,他们对同一问题可能会有不同的看法。当专家们的意见比较一致时,通常说明问题相对清晰;当意见分歧较大时,往往说明问题具有一定的复杂性和不确定性。

研究团队使用这些评估网络输出的标准差作为好奇心的衡量指标。标准差大意味着评估网络之间存在较大分歧,暗示当前状态或行为可能涉及模型尚未充分理解的领域,值得进一步探索。

有趣的是,研究团队还通过理论分析证明,在线性马尔可夫决策过程的假设下,这种多头评论家的标准差实际上等价于经典强化学习中基于计数的探索奖励。这个理论结果为他们的方法提供了坚实的数学基础,说明他们的直觉性设计实际上蕴含着深刻的数学原理。

为了确保多头评论家系统能够产生有意义的分歧,研究团队在训练时为每个头分配不同的数据子集。他们引入了一个叫做"子采样比例"的参数,控制每个头能够看到的数据量。较小的子采样比例会增加头之间的差异性,但可能影响个别头的训练质量;较大的子采样比例则相反。研究团队通过实验找到了这个参数的最优设置。

四、实验验证:数学推理能力的显著提升

研究团队选择了数学推理作为验证其方法有效性的试验场。数学推理是测试人工智能系统逻辑思维能力的理想领域,因为数学问题有明确的对错标准,同时又需要复杂的多步推理过程。

他们使用了四个具有挑战性的数学基准测试:MATH数据集包含各种高中水平的数学竞赛题目,AMC23是2023年美国数学竞赛的题目,而AIME24和AIME25则是2024年和2025年美国数学邀请赛的题目。这些测试的难度都相当高,即使是对人类学生来说也具有相当的挑战性。

在实验设置上,研究团队使用了Qwen3-4B-Base模型作为基础模型。虽然这个模型相对较小,但选择它的原因是为了在有限的计算资源下进行充分的对比实验。他们将自己的方法与两种主流的强化学习算法进行了比较:GRPO(群体相对策略优化)和PPO(近端策略优化)。

实验结果相当令人鼓舞。使用了好奇心驱动探索的GRPO方法在四个测试数据集上平均提升了2.4个百分点。这个提升看似不大,但在这些极具挑战性的数学问题上,每一个百分点的提升都意义重大。特别是在AIME数据集上,提升幅度达到了8个百分点左右,这在数学推理领域算是非常显著的改进。

更有趣的是实验过程中观察到的训练动态。传统方法通常在训练初期就会快速收敛到某个性能水平,然后就停止改进。而使用了好奇心驱动探索的方法在训练初期看起来进步较慢,但随着训练的进行,性能会持续稳定地提升,最终超越传统方法。

这种现象完全符合研究团队的预期。好奇心驱动的探索在初期确实会"分散"模型的注意力,让它不会过早地锁定某种解题思路。但正是这种看似低效的探索,让模型能够发现更多有效的推理模式,最终达到更高的性能水平。这就像两个学生,一个快速掌握了标准解法就不再深入,另一个则花更多时间探索不同的方法,最终掌握了更深刻的数学理解。

研究团队还对好奇心奖励的权重调节机制进行了详细分析。他们比较了四种不同的权重衰减策略:无衰减、线性衰减、余弦衰减和阶梯式衰减。实验结果显示,阶梯式衰减效果最好。这种策略在训练前期保持较高的探索奖励,鼓励模型大胆尝试新思路;在训练后期则急剧降低探索奖励,让模型专注于优化已发现的有效方法。

这个发现揭示了探索和利用之间平衡的重要性。过度探索会导致模型无法收敛,过度利用则会导致模型陷入局部最优。阶梯式衰减策略巧妙地在不同训练阶段实现了两者的最佳平衡。

五、意外发现:模型自信心的校准问题

在深入分析实验结果的过程中,研究团队发现了一个意想不到但极其重要的现象,他们称之为"校准崩塌"。

校准在这里指的是模型的自信程度与其实际准确性之间的匹配关系。一个校准良好的模型应该是:当它很有信心时,答案通常是对的;当它不太确定时,答案可能是错的。这就像一个诚实的学生,对自己确实掌握的内容表现自信,对自己不确定的内容承认困惑。

研究团队通过分析模型在训练过程中的行为发现,使用传统GRPO方法训练的模型会逐渐失去这种校准能力。在训练初期,模型对正确答案的确信度确实比对错误答案的确信度更高,这是合理的。但随着训练的进行,这种差异逐渐缩小,最终几乎消失。

换句话说,经过传统方法训练后的模型变得对自己的错误答案也非常自信,就像一个学生不管答案对错都表现得很确定一样。这种现象不仅影响模型的可信度,也暗示着模型可能已经陷入了某种过拟合状态。

相比之下,使用了好奇心驱动探索的模型能够很好地维持这种校准关系。在整个训练过程中,它始终对正确答案更有信心,对错误答案更加谨慎。这种特性对于实际应用具有重要价值,因为用户可以通过模型表现出的确信程度来判断其答案的可靠性。

研究团队通过理论分析解释了这种现象的成因。传统的强化学习方法只关注最终答案的正确性,会无差别地增强所有能产生正确答案的推理过程,包括那些模型本身都觉得意外的推理过程。这会导致模型对各种推理模式都变得过度自信。

而好奇心驱动的方法则不同。它会特别奖励那些模型觉得意外但实际正确的推理过程,这些往往代表了有价值的新发现。同时,它会特别惩罚那些模型觉得很自然但实际错误的推理过程,这些往往代表了需要纠正的错误偏见。

这种机制自然地维护了模型的校准能力:模型学会对真正掌握的内容保持自信,对存疑的内容保持谨慎。这不仅提高了模型的推理性能,也增强了其可解释性和可信度。

六、深度分析:探索机制的理论基础

研究团队不满足于仅仅展示方法的有效性,他们还深入挖掘了其背后的理论原理,为这种直觉性的设计提供了坚实的数学基础。

对于演员好奇心机制,研究团队证明了一个重要的理论结果。他们证明,使用困惑度作为探索奖励的策略梯度更新具有一个理想的性质:它会自动地对正确答案和错误答案采取不同的处理策略。

具体来说,对于正确答案,那些具有高困惑度(模型觉得意外)的推理过程会获得更大的概率提升,这鼓励模型探索多样化的正确解法。而对于错误答案,那些具有低困惑度(模型觉得自然)的推理过程会受到更大的概率降低,这有助于纠正模型的错误偏见。

这个理论结果优雅地解释了为什么困惑度奖励能够同时促进探索和改善校准。它不是简单地鼓励模型产生随机的输出,而是智能地引导模型在正确的方向上进行有意义的探索。

对于评论家好奇心机制,研究团队建立了它与经典计数探索方法之间的理论联系。他们在线性马尔可夫决策过程的框架下证明,多头评论家的标准差在数学上等价于基于计数的置信上界奖励。

这个结果相当令人惊喜,因为它表明研究团队基于直觉设计的方法实际上蕴含着经典探索理论的深刻原理。计数探索方法是强化学习中的一类经典算法,其核心思想是鼓励智能体访问那些很少被访问过的状态或执行很少被执行过的动作。

但与传统的计数方法不同,评论家好奇心方法不需要显式地维护复杂的计数统计,而是通过模型内部的不确定性来隐式地捕捉探索价值。这种设计不仅计算效率更高,而且更适合处理像自然语言推理这样的高维复杂问题。

研究团队还分析了多头评论家系统中一个关键参数——子采样比例的影响。他们发现,较小的子采样比例会增加不同评论家头之间的差异性,从而产生更强的探索信号;但同时也可能降低个别头的训练质量。实验结果显示,在0.5左右的子采样比例下能够取得最佳的性能平衡。

七、方法优势:简单高效的设计哲学

研究团队的方法相比现有技术具有几个显著优势。首先是实现的简洁性。整个好奇心驱动探索框架只需要对现有的强化学习算法进行最小化的修改:在奖励函数中加入困惑度奖励,以及将单头评论家扩展为多头评论家。这种简洁性使得该方法很容易被其他研究者采用和改进。

其次是计算效率。传统的探索方法往往需要维护复杂的统计信息或进行昂贵的矩阵运算。而好奇心驱动的方法直接利用模型训练过程中已有的计算结果,额外的计算开销很小。困惑度本身就是语言模型训练中的标准指标,而多头评论家的计算也只是简单的并行化。

第三是方法的通用性。虽然研究团队主要在数学推理任务上进行了验证,但这个框架本身是任务无关的,可以应用到任何需要复杂推理的领域。无论是代码生成、逻辑推理还是创意写作,只要是需要模型进行多步思考的任务,都可能从这种探索机制中受益。

第四是理论的完备性。研究团队不仅提供了直观的解释,还建立了严格的数学理论基础。这种理论与实践的结合为方法的进一步发展和改进提供了指导。

研究团队还特别强调了他们方法的一个重要特点:它是"内源性"的探索机制。与依赖外部统计或人工设计的探索策略不同,好奇心驱动的探索完全基于模型自身的内在判断。这种设计哲学更符合真实智能系统的工作方式,也为未来开发更自主的人工智能系统提供了有价值的思路。

八、实际应用:从实验室到现实世界

虽然这项研究主要在数学推理领域进行验证,但其潜在应用范围远远超出了数学问题的范畴。好奇心驱动探索的核心理念——让模型自主判断什么值得深入探索——可能会在多个人工智能应用领域产生深远影响。

在教育技术领域,这种方法可能会推动个性化学习系统的发展。传统的教学软件往往采用预设的学习路径,所有学生都按照相同的顺序学习相同的内容。而具备好奇心机制的教学AI可能会更像一位经验丰富的人类教师,能够识别学生在哪些概念上存在困惑,然后自动调整教学策略,在这些关键点上投入更多的时间和资源。

在科学研究助手方面,好奇心驱动的AI可能会帮助研究者发现那些被忽视但具有研究价值的方向。当AI在分析大量科学文献时,它可能会自动识别出那些让它感到"意外"或"困惑"的研究结果,这些往往正是值得进一步探索的科学前沿。

在创意产业中,这种技术可能会催生新一代的创作助手。传统的AI创作工具往往倾向于生成安全但平庸的内容,而具备好奇心的AI可能会更愿意尝试新颖的创意方向,在保持内容质量的同时增加创新性。

在商业决策支持方面,好奇心驱动的分析系统可能会帮助企业发现那些看似反直觉但实际有效的策略。当系统发现某个商业模式或市场趋势让它感到意外时,这可能正是需要管理者重点关注的机会或风险。

当然,将这项技术从实验室推广到实际应用还需要解决许多挑战。首先是规模化的问题。目前的实验主要在相对较小的模型上进行,如何将这种方法扩展到更大规模的模型还需要进一步研究。其次是安全性问题。虽然好奇心能够促进探索,但也需要确保这种探索不会导致模型产生有害或危险的行为。

九、未来展望:好奇心驱动的人工智能时代

研究团队在论文中提出了几个值得进一步探索的研究方向。他们特别提到了"校准崩塌"现象的深层机制,认为这个发现可能与当前大语言模型容易产生幻觉(生成看似合理但实际错误的内容)的问题有关。如果能够更深入地理解和解决这个问题,可能会显著提升AI系统的可信度。

另一个有趣的方向是探索不同类型的好奇心机制。目前的研究主要关注基于不确定性的好奇心,但人类的好奇心还有其他形式,比如基于新奇性的好奇心(对从未见过的事物感兴趣)和基于复杂性的好奇心(对复杂系统的运作机理感兴趣)。未来的研究可能会开发出更多样化的好奇心机制,让AI系统具备更丰富的探索动机。

从更广阔的视角看,这项研究代表了人工智能发展的一个重要转向:从被动的模式匹配向主动的智能探索转变。传统的机器学习方法本质上是在寻找数据中的统计规律,而好奇心驱动的方法则让机器开始具备某种内在的学习动力。

这种转变可能会带来更加自主和创新的AI系统。想象一下,未来的AI不再只是回答人类提出的问题,而是会主动提出新的问题;不再只是优化预定义的目标,而是会发现新的优化目标;不再只是模仿人类的行为,而是会创造出人类从未想过的解决方案。

当然,这种发展也会带来新的挑战和思考。如何确保具备好奇心的AI系统始终朝着对人类有益的方向探索?如何平衡AI的自主性和可控性?这些都是未来需要深入研究的重要问题。

研究团队的工作为这些思考提供了一个重要的起点。他们证明了在AI系统中引入类似人类的好奇心机制不仅是可能的,而且是有益的。更重要的是,他们展示了如何将这种看似抽象的心理概念转化为具体可行的技术方案。

说到底,这项研究最令人兴奋的地方不仅在于它提升了AI的数学推理能力,更在于它开启了一扇通向更智能、更自主AI系统的大门。当机器开始像孩子一样保持好奇心时,我们或许正在见证人工智能发展史上的一个重要里程碑。未来几年,随着这种技术的不断成熟和应用,我们可能会看到AI系统在各个领域展现出前所未有的创新能力和探索精神。对于那些希望深入了解技术细节的读者,可以通过arXiv:2509.09675v1访问完整的研究论文,其中包含了更详细的数学推导和实验数据。

Q&A

Q1:好奇心驱动探索框架CDE具体是如何工作的?

A:CDE框架通过两个"好奇心传感器"来指导AI探索。第一个是演员好奇心,通过测量AI对自己生成内容的意外程度(困惑度)来判断是否需要深入探索;第二个是评论家好奇心,通过多个专家评估网络的意见分歧程度来识别不确定的领域。当AI遇到让自己困惑或专家意见不一致的情况时,就会获得探索奖励,鼓励它进一步研究这些领域。

Q2:为什么传统的AI训练方法容易出现过早收敛问题?

A:传统方法就像让学生只追求标准答案一样,AI一旦找到能产生正确结果的方法就不再尝试其他可能性。这会导致"熵崩塌"现象,即AI的行为变得越来越单一化,失去探索新思路的动力。同时还会出现"校准崩塌",AI逐渐失去对自己能力的准确判断,对错误答案也变得过分自信。

Q3:这项研究的成果在实际应用中有什么意义?

A:除了在数学推理上平均提升3个百分点的准确率外,这项技术可能会推动个性化教育、科研助手、创意写作等多个领域的发展。更重要的是,它代表了AI从被动模式匹配向主动智能探索的转变,未来的AI系统可能会像人类一样主动提出新问题、发现新目标,展现出前所未有的创新能力。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐