这项由北京大学崔斌教授团队联合上海AI实验室和北京航空航天大学共同完成的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.16591v1),为我们揭开了人工智能训练过程中一个重要但被忽视的秘密。

当我们教AI学习语言时,就像教一个孩子说话一样,传统方法把每个词都当作同等重要来对待。但这项研究发现,这种做法就像用同样的力气教孩子说"苹果"和"因为"这两个词一样不合理。有些词汇在推理过程中起着关键的决策作用,就像路口的指示牌,而另一些词汇只是起到连接作用,就像路上的装饰花草。

研究团队通过分析数百万个词汇的训练过程,发现了一个有趣的现象:那些在语言生成过程中"不确定性"最高的词汇,往往是最关键的推理节点。比如在数学题解答中,"因此"、"假设"、"或者"这类词汇比"计算"、"等于"这类词汇更需要特殊对待。这就像在烹饪时,调味料的用量需要精确掌握,而基础食材的处理可以相对粗放一些。

基于这一发现,研究团队开发了名为HAPO(异构自适应策略优化)的新训练方法。这种方法能够根据每个词汇的重要性动态调整训练策略,就像一位经验丰富的教练会根据每个学生的特点制定不同的训练计划。实验结果显示,使用这种方法训练的AI模型在数学推理任务上的表现显著提升,准确率从原来的21.7%提高到25.3%。

一、传统训练方法的盲点:为什么一视同仁不是好策略

要理解这项研究的价值,我们首先需要了解目前AI训练中存在的问题。当前主流的强化学习方法,包括广泛使用的PPO、GRPO和DAPO等算法,都采用了一种"一刀切"的策略。这就像一个老师用完全相同的方法教授班上的每一个学生,不管这个学生是数学天才还是艺术特长生。

在语言生成过程中,每个词汇实际上承担着不同的功能角色。有些词汇是"决策点",比如在数学推理中的"假设"、"因此"、"或者",这些词汇的选择直接影响整个推理路径的正确性。而另一些词汇则是"连接器",比如"的"、"在"、"是",它们主要起到语法连接的作用,对推理结果的影响相对较小。

研究团队通过一个巧妙的实验验证了这个观点。他们让AI模型分别只学习高不确定性的词汇(占总数的20%)和低不确定性的词汇(占总数的80%),然后测试模型的表现。结果发现,只学习那20%高不确定性词汇的模型,在某些任务上的表现竟然接近学习了所有词汇的模型。这就像发现了一个惊人的事实:掌握了关键的20%知识点,就能解决80%的问题。

但是,这个发现也带来了新的困惑。研究团队注意到一个有趣的"双重不确定性现象":许多重要的推理词汇会以不同的形式出现,有时表现为高不确定性,有时表现为低不确定性。比如"once"和"Once"这两个词,虽然本质相同,但在不同的语境中,AI对它们的不确定性判断可能完全不同。这种现象说明,简单地按照不确定性高低来分类处理词汇是不够的,需要更精细的方法。

传统方法的另一个问题是在训练过程中的"长度偏见"。当AI生成错误答案时,往往会产生更长的文本,就像一个不会做题的学生会写很多废话来凑字数。在传统的训练方法中,这些长篇的错误答案会在训练过程中占据更大的权重,导致AI学到错误的模式。这就像老师被学生的废话迷惑,反而认为写得多就是写得好。

二、揭秘词汇的"性格":高熵词汇与低熵词汇的不同表现

为了更好地理解不同词汇在AI学习过程中的行为模式,研究团队进行了大规模的词汇分析。他们使用"熵"这个概念来衡量AI对某个词汇的不确定性程度。熵值越高,说明AI在选择这个词汇时越犹豫,越需要"思考"。

通过分析约1000万个词汇的生成过程,研究团队发现了一个有趣的分布规律:大多数词汇的熵值都很低,聚集在接近零的位置,而高熵词汇非常稀少。这种分布就像一个倒置的金字塔,底部是大量的"确定性"词汇,顶部是少数的"关键决策"词汇。

更有趣的是,研究团队发现了熵值与词汇被选中概率之间的反比关系。那些最重要的高熵词汇,恰恰是在正常生成过程中最不容易被选中的词汇。这就像最需要练习的高难度动作,却是运动员在日常训练中最少练到的动作。这种矛盾导致了AI训练中的"探索-利用失衡"问题。

在数学推理任务中,研究团队特别关注了那些高熵词汇的特征。他们发现,这些词汇通常代表着推理过程中的关键转折点,比如条件判断、逻辑推导、选择分支等。具体来说,像"whereas"(然而)、"confirm"(确认)、"suppose"(假设)这类词汇的熵值显著高于"and"(和)、"is"(是)、"of"(的)这类基础连接词。

研究团队还发现了一个被他们称为"双重熵现象"的有趣规律。许多重要的推理词汇会以不同的形式出现,比如"once"和"Once"、"how"和"How"、"what"和"What"等。这些词汇对在语义上基本相同,但在不同的语境中,AI对它们的不确定性判断可能差异巨大。这种现象解释了为什么简单的高低熵分类方法不够有效,因为同一个概念可能同时存在于高熵和低熵区域。

为了验证温度参数对关键词汇生成的影响,研究团队进行了系统性的实验。他们发现,当生成温度较低时,AI倾向于选择安全、确定的词汇,虽然准确率较高,但缺乏探索性,难以学习到复杂的推理模式。当温度较高时,AI会生成更多的高熵词汇,增加了学习机会,但同时也引入了大量噪音,降低了整体质量。这就像调节烤箱温度一样,温度太低食物不熟,温度太高又会烤糊,需要找到恰当的平衡点。

三、动态温度调节:让AI在关键时刻更"大胆"思考

基于对词汇特性的深入理解,研究团队提出了第一个创新方法:自适应温度采样。这种方法的核心思想是根据当前词汇的重要性动态调整生成的"冒险程度"。

传统的AI文本生成使用固定的温度参数,就像用恒定的火力烹饪所有食材。但研究团队认为,这种做法忽略了不同词汇位置的特殊需求。在需要精确计算的地方,比如数学公式中的数字和运算符,应该使用较低的温度保证准确性。而在需要推理决策的地方,比如选择解题思路或判断条件时,应该使用较高的温度鼓励探索。

具体来说,当AI遇到高熵词汇时,系统会自动提高温度参数,让AI更愿意尝试不同的选择。这就像在十字路口时放慢速度仔细观察,确保选择正确的方向。而当AI遇到低熵词汇时,系统会降低温度,让AI更加确定地选择最可能正确的词汇,就像在直路上加速行驶一样。

研究团队设计的温度调节公式考虑了词汇熵值的对数分布特性。他们使用对数平滑来处理熵值的巨大变化范围,确保温度调节既敏感又稳定。实验中,他们将高熵词汇的温度设置为1.1,低熵词汇的温度设置为0.8,以0.5作为区分高低熵的阈值。

实验结果验证了这种动态温度策略的有效性。与固定温度方法相比,自适应温度采样不仅提高了模型的准确率,还增加了关键词汇的生成频率和平均熵值。更重要的是,这种方法生成的文本长度也有所增加,说明AI能够进行更深入的推理思考。

有趣的是,研究团队还测试了随机温度变化的效果,发现即使是无目标的温度随机变化也能带来一定的性能提升。这个发现进一步证实了固定温度策略的局限性,同时也说明了有针对性的温度调节策略的优越性。

四、公平分配学习机会:解决AI训练中的"偏心"问题

在AI的强化学习训练中,存在一个类似于"偏心老师"的问题。当AI生成正确答案时,通常文本较短且精炼。而生成错误答案时,往往会产生冗长的、充满无关信息的文本。在传统的训练方法中,这些长篇的错误样本会在梯度计算中占据更大的权重,就像一个喋喋不休的学生抢占了老师的注意力,而真正优秀的学生反而被忽视了。

研究团队发现,这种"长度偏见"在DAPO(去耦剪切和动态采样策略优化)算法中尤为明显。DAPO虽然在处理长序列方面有优势,但它的词汇级平均机制导致了一个意想不到的副作用:负面样本(错误答案)由于长度更长,在训练过程中获得了不成比例的影响力。

为了解决这个问题,研究团队提出了"词汇级群体平均"方法。与传统的序列级平均不同,这种方法首先将奖励分配到每个词汇,然后在所有词汇层面进行标准化。这就像重新设计了一个公平的评分系统,确保每个词汇都有平等的发言权,而不是让"话多"的样本占据主导地位。

这种方法的数学原理相对简单但效果显著。传统方法计算优势值时,会受到序列长度的影响,导致长序列在梯度更新中占据更大比重。而词汇级群体平均方法通过重新分配权重,确保正面样本和负面样本在训练中获得平衡的影响力。

实验结果显示,这种平衡策略带来了明显的性能提升。在困难的数学推理任务中,使用词汇级群体平均的模型学习速度更快,最终性能也更好。更重要的是,这种方法为后续的优势重分配奠定了稳定的基础,就像为一栋建筑打下了坚实的地基。

研究团队还发现,词汇级群体平均方法在面对优势值扰动时表现出更好的稳定性。当他们故意在优势值中加入随机噪声时,传统方法的性能会大幅波动,而新方法则保持相对稳定。这种稳定性对于后续的精细化调整至关重要。

五、精准激励机制:根据词汇的"表现"调整奖励

在建立了公平的基础评分系统后,研究团队进一步提出了差异化优势重分配策略。这种策略的核心思想是根据每个词汇的实际学习需求,动态调整其在训练中获得的"奖励"或"惩罚"强度。

传统的训练方法就像一个刻板的老师,对所有学生使用相同的教学方法。而新的差异化策略更像一个经验丰富的教练,能够识别每个学生的特点和需求,制定个性化的训练计划。对于那些在关键决策点表现出明确学习方向的词汇,给予更强的正向激励。对于那些没有明确学习趋势的普通词汇,则适当降低其影响力。

这种策略的创新之处在于同时考虑了两个重要因素:词汇的不确定性(熵值)和重要性比率。重要性比率反映了AI模型对某个词汇的偏好变化程度。当这个比率远离1.0时,说明模型对该词汇有明确的学习倾向,无论是增强还是减弱。当比率接近1.0时,说明模型对该词汇没有明确的学习方向。

具体的调整策略是这样的:对于高熵词汇,当其重要性比率显著偏离1.0时,系统会放大其优势值,鼓励模型在这些关键决策点上进行更明确的学习。对于低熵词汇,当其重要性比率接近1.0时,系统会抑制其优势值,避免这些非关键词汇干扰整体学习过程。

研究团队通过大规模的词汇分析发现,高熵词汇确实表现出更广泛的重要性比率分布,而且大多数高熵词汇的比率都显著偏离1.0,说明模型对这些词汇有明确的学习偏好。相比之下,低熵词汇的比率大多聚集在1.0附近,表明模型对这些词汇没有强烈的学习倾向。

实验验证显示,这种联合考虑熵值和重要性比率的策略比单纯基于熵值的调整方法效果更好。与随机调整相比,有针对性的差异化调整带来了显著的性能提升,证明了精准激励机制的有效性。

六、智能约束边界:让重要词汇获得更多探索自由

在强化学习的训练过程中,"剪切"机制起着重要的约束作用,就像给学习过程设置了安全边界。传统的剪切方法对所有词汇使用相同的约束范围,但研究团队发现,这种"一刀切"的约束策略实际上产生了与优化目标相反的效果。

通过分析数百万个被剪切的词汇,研究团队发现了一个令人意外的模式:在左边界(限制概率降低)被剪切的主要是低熵词汇,而在右边界(限制概率增加)被剪切的主要是高熵词汇。更重要的是,被左边界剪切的低熵词汇大多是无关紧要的格式符号或连接词,而被右边界剪切的高熵词汇中包含了许多关键的推理元素。

这种现象揭示了传统剪切机制的一个根本性问题:它保护了噪声词汇,同时限制了重要词汇的探索空间。这就像一个过度保护的管理制度,阻止了优秀员工的创新尝试,却放任了低效行为的继续。

基于这一发现,研究团队设计了非对称自适应剪切策略。这种策略根据词汇的重要性分别设置不同的约束边界。对于低熵词汇,系统放宽左边界限制,允许这些非关键词汇的概率更大幅度地降低,从而更有效地抑制噪声。对于高熵词汇,系统放宽右边界限制,给予这些关键决策词汇更大的探索空间。

具体的实现方案是为不同类型的词汇设置不同的剪切边界。低熵词汇使用[0.65, 1.2]的剪切范围,允许更激进的概率降低。高熵词汇使用[0.8, 1.35]的剪切范围,提供更大的探索自由度。这种设计既保护了关键词汇的学习机会,又有效抑制了无关词汇的干扰。

实验结果证实了这种非对称策略的有效性。与传统的对称剪切相比,非对称自适应剪切不仅提高了模型的准确率,还增加了生成文本的长度,说明模型能够进行更深入的推理。研究团队还测试了相反的剪切策略(给高熵词汇更严格的约束),结果导致了快速的熵值崩溃和性能下降,进一步验证了正确策略的重要性。

七、从分类到连续:构建精细化的个性化训练系统

在验证了基于高低熵分类的差异化处理方法后,研究团队意识到这种二元分类方法仍然存在局限性。就像用"高个子"和"矮个子"来分类所有人一样,这种粗糙的分类会导致身高相近的人被分到不同类别,接受完全不同的待遇。

为了解决这个问题,研究团队将所有的差异化策略从离散的分类方法扩展为连续的函数方法。这种转变就像从阶梯式的税收制度改为平滑的累进税制,能够更精确地反映每个个体的实际情况。

在连续化的温度调节策略中,系统不再简单地将词汇分为高熵和低熵两类,而是根据每个词汇的具体熵值计算相应的温度参数。这种方法使用对数平滑技术来处理熵值分布的巨大变化范围,确保温度调节既敏感又稳定。具体的计算公式考虑了熵值的分位数位置和标准差,能够为每个词汇提供精确匹配的温度设置。

在优势重分配方面,连续化方法同样使用平滑的函数来替代硬性的分类边界。系统首先将熵值进行标准化处理,然后使用非对称缩放确保所有调整因子都在合理的范围内。这种处理方式避免了分类边界附近词汇的不稳定问题,使得相似熵值的词汇获得相似的处理方式。

剪切边界的连续化调整同样遵循这一原则。系统根据每个词汇的标准化熵值连续地调整其剪切边界,而不是使用固定的分类阈值。这种方法确保了剪切策略的平滑性和一致性,避免了边界效应带来的不稳定性。

连续化方法的另一个重要优势是计算效率。虽然看起来更复杂,但实际上这种方法避免了复杂的分类判断和条件分支,使得整个训练过程更加流畅。同时,连续函数的可微性也为未来的进一步优化提供了可能。

八、实验验证:新方法在多个模型上的卓越表现

为了全面验证HAPO方法的有效性,研究团队在多个不同规模的数学推理模型上进行了系统性的实验。他们选择了Qwen2.5-Math系列的1.5B和7B参数模型,以及Qwen3-8B模型作为测试平台,涵盖了从小型到大型的不同模型规模。

实验使用了两个具有挑战性的数学竞赛数据集:AIME2024和AIME2025。这些数据集包含了美国数学邀请赛的真实题目,代表了高中数学竞赛的最高水平。这种选择确保了实验结果的权威性和说服力,因为这些题目需要复杂的多步推理和深度的数学理解。

在AIME2024数据集上,HAPO方法在所有测试模型上都取得了显著的性能提升。Qwen2.5-Math-1.5B模型的准确率从21.7%提升到25.3%,相对提升幅度达到16.6%。Qwen2.5-Math-7B模型从37.2%提升到41.3%,Qwen3-8B模型从35.8%提升到39.0%。这些提升幅度在数学推理任务中是相当可观的,因为每一个百分点的提升都代表着模型解决了更多复杂的数学问题。

在更具挑战性的AIME2025数据集上,HAPO方法的优势更加明显。Qwen2.5-Math-1.5B模型的准确率从17.1%提升到20.1%,Qwen2.5-Math-7B模型从20.2%提升到24.3%,Qwen3-8B模型从25.2%提升到26.8%。这些结果表明,HAPO方法不仅在相对简单的任务上有效,在更困难的推理任务上同样能够带来实质性的改进。

实验过程中,研究团队还仔细监控了训练动态的各种指标。他们发现,使用HAPO方法训练的模型不仅最终性能更好,训练过程也更加稳定。模型的响应长度有所增加,说明AI能够进行更深入的推理思考。同时,关键词汇的平均熵值也有所提升,表明模型在关键决策点上保持了更好的探索能力。

为了确保结果的可靠性,研究团队进行了多次独立的实验运行,并对结果进行了统计分析。他们还测试了各个组件的独立贡献,发现每个组件都对最终性能有积极影响,而且组件之间存在协同效应,整体效果大于各部分之和。

九、深入分析:为什么这种方法如此有效

HAPO方法的成功并非偶然,而是基于对AI学习过程深层机制的准确理解。研究团队通过详细的分析揭示了这种方法有效性的根本原因。

首先,自适应温度采样解决了传统方法中的"探索-利用困境"。在固定温度的生成过程中,AI面临着一个两难选择:低温度能保证准确性但限制了探索,高温度能增加多样性但引入了噪声。HAPO的动态温度策略巧妙地化解了这个矛盾,让AI在需要精确的地方保持谨慎,在需要创新的地方放开手脚。

其次,词汇级群体平均和差异化优势重分配共同解决了训练过程中的"注意力分配"问题。传统方法就像一个不会分配时间的老师,把大量精力浪费在不重要的细节上,而忽略了真正的重点。新方法通过重新分配学习资源,确保AI把主要精力集中在最需要学习的地方。

非对称自适应剪切则解决了"约束错位"问题。传统的统一约束就像用同一套交通规则管理所有道路,不区分高速公路和小区道路。新方法根据不同词汇的特性设置不同的约束边界,既保护了重要词汇的学习自由,又有效抑制了无关词汇的干扰。

从更深层次来看,HAPO方法体现了一个重要的机器学习原理:异构性建模。现实世界中的数据往往具有内在的异构性,不同的数据点需要不同的处理方式。传统的同构化方法虽然简单,但往往无法充分利用数据的内在结构。HAPO通过识别和利用词汇的异构性,显著提升了学习效率。

研究团队还发现,HAPO方法的改进不仅体现在最终的准确率上,还体现在学习过程的质量上。使用HAPO训练的模型表现出更好的泛化能力,在面对新类型问题时的适应性更强。这说明该方法不仅提高了模型的记忆能力,更重要的是提升了模型的理解和推理能力。

十、未来展望:个性化AI训练的新时代

这项研究的意义远远超出了数学推理任务的范围。HAPO方法所体现的异构化处理思想为整个AI训练领域开辟了新的方向。就像个性化教育革命改变了传统的一刀切教学模式一样,个性化AI训练可能会成为未来机器学习的主流趋势。

在自然语言处理的其他任务中,这种方法同样具有广阔的应用前景。比如在机器翻译中,不同类型的词汇(专业术语、常用词汇、语法词汇)需要不同的处理策略。在文本摘要中,关键信息词汇和修饰性词汇的重要性也截然不同。在对话系统中,情感词汇、事实词汇和礼貌用语的处理方式也应该有所区别。

从技术发展的角度来看,HAPO方法为AI训练的精细化控制提供了新的工具和思路。未来的研究可能会在此基础上开发出更加智能的自适应训练系统,能够自动识别不同类型数据的特性,并动态调整训练策略。这种系统就像一个永不疲倦的个人教练,能够为每个学习者制定最适合的训练计划。

对于AI产业的发展,这项研究也具有重要的实践价值。随着AI模型规模的不断增大,训练成本也在急剧上升。HAPO方法通过提高训练效率,可以在相同的计算资源下获得更好的模型性能,或者用更少的资源达到相同的性能水平。这对于AI技术的普及和商业化应用具有重要意义。

研究团队已经将HAPO的代码开源,这为其他研究者和开发者提供了宝贵的资源。可以预期,基于这个基础,会有更多的改进和创新涌现出来。同时,这种开放的研究态度也体现了学术界推动AI技术进步的责任感和使命感。

说到底,这项研究告诉我们一个简单而深刻的道理:在AI的世界里,就像在人类社会中一样,个性化和差异化是提高效率和效果的关键。通过认识和尊重每个词汇的"个性",我们可以让AI学得更快、更好、更智能。这不仅是技术的进步,更是我们对智能本质理解的深化。随着这种思想的推广和应用,我们有理由相信,未来的AI系统将变得更加智能、更加高效,也更加贴近人类的思维方式。

Q&A

Q1:HAPO方法与传统AI训练方法的主要区别是什么?
A:传统AI训练方法对所有词汇一视同仁,就像用同样的方法教所有学生。而HAPO方法根据每个词汇的重要性和不确定性程度,采用不同的训练策略,就像个性化教学一样。具体包括动态调整生成温度、重新分配学习奖励、设置不同的约束边界等四个核心改进。

Q2:为什么有些词汇比其他词汇更重要?
A:在AI推理过程中,不同词汇承担不同功能。像"假设"、"因此"、"或者"这类词汇是关键决策点,直接影响推理路径的正确性。而像"的"、"是"、"在"这类词汇主要起连接作用,对推理结果影响较小。研究发现,那些让AI"犹豫不决"的高不确定性词汇,往往是最关键的推理节点。

Q3:HAPO方法在实际应用中效果如何?
A:在数学推理任务测试中,HAPO方法显著提升了AI模型的表现。比如在AIME2024数学竞赛题目上,不同规模模型的准确率提升了3.6%到4.1%,相对提升幅度达到16.6%。这种提升在数学推理任务中是相当可观的,每个百分点都代表AI能解决更多复杂问题。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐