中科院与小红书联合破解AI推理难题:让机器像人一样能探索验证
中科院与小红书联合破解AI推理难题:让机器像人一样能探索验证

这项由中国科学院大学软件研究所的温学茹、刘彦江、林宏宇等研究人员,联合小红书公司的楼杰、张德兵等专家共同完成的研究,发表于2025年12月的arXiv预印本平台(论文编号arXiv:2512.12576v1),为解决大型语言模型的推理训练难题提出了全新的解决方案。有兴趣深入了解技术细节的读者可以通过该论文编号查询完整研究内容。
当我们面对一道复杂的数学题时,通常会采用两种截然不同的策略。有时候,我们会先仔细分析题目,然后一步步推导出答案,这就像一个侦探从线索开始逐步破案。但另一些时候,如果我们已经知道答案或者有了大致方向,我们会反过来验证这个答案是否正确,就像从结论倒推论证过程。
目前的AI系统在学习推理时面临着类似的选择困境,但它们往往只能采用其中一种策略,这就像是让一个学生只能用一种方法解题一样,效率自然不够理想。现有的强化学习方法虽然在数学推理等可验证的任务中表现出色,但它们依赖于外部验证器来判断答案的正确性。当涉及到无法轻易验证答案的复杂推理任务时,这些方法就显得力不从心了。
为了解决这个问题,近期出现了一些"无验证器"的强化学习方法,它们不再依赖外部判断,而是利用AI模型自身对正确答案的预测概率作为奖励信号。这种方法可以比喻为让学生自己评估答案的可信度。然而,这些方法通常只从问题开始生成推理过程,就像总是要求学生从头开始解题,而不允许他们从已知答案验证推理过程。这种单一的训练方式导致了两个关键问题:一是探索效率低下,特别是在面对困难问题时,模型很难找到有用的推理路径;二是推理过程与最终答案之间可能出现不一致,即使推理逻辑正确,但由于答案格式不匹配等原因,仍然可能得到较低的奖励。
面对这样的挑战,研究团队提出了一个名为"耦合变分强化学习"(CoVRL)的创新框架。这个方法的核心思想是将变分推理和强化学习巧妙地结合起来,通过混合采样策略同时利用"先验分布"和"后验分布"这两种互补的生成模式。
为了更好地理解这个概念,我们可以把AI的推理学习过程比作学习烹饪。传统的方法就像只教学生按照食谱一步步做菜(先验分布),而不告诉他们最终菜品应该是什么样子。而研究团队的新方法则是既教学生按食谱做菜,又让他们从成功的菜品反推制作过程(后验分布)。通过这种双重训练,学生不仅学会了基本的烹饪步骤,还理解了不同步骤与最终成果之间的关联。
具体来说,这个框架构建了一个"复合分布",将问题导向的先验分布和答案导向的后验分布有机结合。先验分布对应于现实推理条件,即只根据问题生成推理过程;而后验分布则利用答案信息,生成更加连贯和准确的推理路径。这种双模式策略在训练期间提供答案指导,同时确保学到的推理模式能够有效迁移到实际推理场景中。
在实际实施过程中,由于直接从复合分布采样在计算上比较复杂,研究团队采用了一种混合采样策略。他们为每个训练样本随机选择使用先验分布还是后验分布,然后通过最大化变分下界来进行优化。这个下界包含一个重建项(用于答案预测)和一个正则化项(确保迁移性)。通过重要性加权技术,他们能够使用同一个底层语言模型在不同的提示模板下进行无缝训练。
为了处理KL散度这一关键的正则化组件,研究团队扩展了现有的低方差KL估计器,使其适用于复合分布设置。他们根据采样分布的不同,推导出不同的估计器形式,并通过Bregman散度控制变量来减少估计方差。这种技术处理确保了训练过程的稳定性和可靠性。
在实验设计方面,研究团队使用了从WebInstruct数据集中筛选出的非数学问题数据,以评估算法在一般推理能力方面的改进效果。他们没有进行额外的数据过滤,以评估算法在不同问题类型、难度水平和质量变化中的鲁棒性。实验主要基于Qwen2.5-7B-Base模型进行,直接在基础模型上进行微调,而没有中间的监督微调阶段。
与其他无验证器方法的对比实验结果显示,CoVRL在综合性能上取得了显著提升。在包括数学推理和一般推理在内的多个基准测试中,该方法相比基础模型实现了12.4%的性能提升,并且相比最强的基线方法额外获得了2.3%的改进。值得注意的是,尽管训练时使用的是非数学问题,但该方法在数学推理任务上也表现出了实质性的提升,这证明了通过多样化问题解决学习到的一般推理能力可以有效迁移,突显了一般推理技能发展的价值。
训练动态分析揭示了几个重要发现。首先,后验分布在提供指导方面非常有效,在整个训练过程中始终保持比先验分布更高的奖励分数,这证实了答案导向采样策略的有效性,并确认后验采样能够更高效地探索高质量推理路径。其次,CoVRL通过延长的思维链追踪提升了推理能力,响应长度的稳定增加表明模型逐渐生成更详细的推理过程,这种趋势表明CoVRL成功地鼓励了详尽的逐步解释。此外,正则化提供了稳定的优化动态,NLL和KL损失的稳定下降趋势表明改进的答案预测和成功的正则化,确认了变分目标有效地平衡了重建和正则化项。
关于混合采样策略的影响,研究团队通过改变先验分布和后验分布之间的混合比例进行了深入分析。结果表明,低先验采样概率(α=0.1)的表现优于高先验采样概率(α=0.9),这突显了后验分布在算法中的重要作用。当先验采样占主导时,模型主要从先验分布采样,响应推理链长度会减少。这是因为在改善奖励方面存在困难,导致模型优先考虑最小化KL损失并生成更短的序列。相比之下,当后验采样占主导时,推理链长度增加,后验主导的采样比先验主导的采样取得更好的性能。然而,由于训练-推理不匹配,性能仍然不如平衡采样。
进一步的实验表明,CoVRL在不同基础模型上都表现出了鲁棒性。研究团队在Qwen2.5和Qwen3基础模型上进行了评估,模型参数从7B到14B不等。结果显示,CoVRL在所有测试模型上都带来了一致的性能改进,证明了其在不同模型架构中的鲁棒性。同时,针对不同训练数据组成的评估结果表明,仅在数学数据上训练的模型在非数学推理任务上表现出增强的性能,类似地,仅在非数学数据上训练的模型在数学任务上也有改进。这表明该方法使模型能够获得可在不同领域间迁移的通用推理能力。
在损失组件的影响分析中,研究团队发现KL正则化对于维持训练稳定性至关重要。当KL散度系数降低到0.1时,所有基准测试的性能都显著下降,总体准确率降至27.4%。这种性能下降源于KL正则化不足时的训练不稳定性,在训练过程中观察到KL散度的大幅增加,表明先验和后验分布之间存在显著偏差。这导致了训练-推理不匹配问题和训练不稳定性,因为实际上是在进行离策略优化,训练和推理之间的分布偏移不断增加。
相比之下,模型对NLL损失系数的变化似乎不太敏感。当NLL系数降低到0.1时,性能适度下降至44.7%。研究团队将这种韧性归因于RL项和NLL损失本质上优化相同的目标,两者都旨在改善答案预测质量。NLL损失主要训练模型总结推理和产生最终答案的能力。
关于奖励函数配方的研究表明,所有奖励配方都实现了非常相似的总体性能,变化不到1个百分点(49.7%到50.6%)。这种一致性表明CoVRL框架对各种奖励配方都具有鲁棒性,无论是在长度标准化方面比较序列长度平均与非标准化概率和,还是在对数变换方面检查是否使用对数概率或原始概率作为奖励信号。
说到底,这项研究为AI推理训练开辟了一条全新的道路。通过巧妙地结合探索性学习和验证性学习两种模式,CoVRL框架不仅解决了现有方法的关键限制,还在多个基准测试中取得了令人瞩目的性能提升。这种方法的成功不仅体现在数字上的改进,更重要的是它展示了一种更加自然、更加符合人类学习规律的AI训练方式。
归根结底,这项技术的意义远超出学术研究的范畴。随着大型语言模型在日常生活中的应用越来越广泛,从智能助手到教育工具,从内容创作到决策支持,更强的推理能力意味着这些AI系统能够更好地理解和解决复杂问题,为人们提供更可靠、更有价值的帮助。当AI能够像人类一样既善于探索未知又善于验证已知时,我们或许正在见证人工智能向真正的智能化迈出的重要一步。对于那些关注AI技术发展趋势的读者来说,这项研究无疑提供了一个值得深思的新方向:未来的AI系统可能不再是单一模式的问题解决者,而是能够灵活运用多种思维方式的智能伙伴。
Q&A
Q1:什么是耦合变分强化学习CoVRL?
A:CoVRL是中科院和小红书联合开发的AI训练新方法,它让AI既能从问题开始探索推理过程,又能从答案反推验证思路,就像让学生既会从头解题又会验算一样,这种双重训练模式大大提高了AI的推理能力。
Q2:CoVRL相比传统方法有什么优势?
A:传统方法只能单向解题,效率不高且容易出现推理与答案不匹配的问题。CoVRL通过混合两种学习模式,解决了探索效率低和推理一致性差的问题,在实验中相比基础模型提升了12.4%的性能,比最强基线方法额外提升2.3%。
Q3:这项技术对普通人有什么影响?
A:随着AI推理能力的提升,未来的智能助手、教育工具和决策支持系统将变得更可靠和有用。这意味着AI能更好地理解复杂问题,为我们在工作、学习和生活中提供更准确的帮助和建议。
更多推荐


所有评论(0)