表示崩塌(representation collapse)是自监督学习,特别是对比学习中的一个关键问题。让我们深入探讨:

  1. 表示崩塌的概念:

    • 表示崩塌指的是模型学习到的特征表示变得过于简单或退化,失去了对输入数据的有效区分能力。
    • 最极端的情况是所有输入都被映射到同一个点或非常相似的几个点上。
  2. 为什么会发生:

    • 在对比学习中,如果正样本对之间的相似度被过度优化,而忽视了整体分布,就可能导致崩塌。
    • 如果查询编码器和键编码器完全相同,模型可能会找到一种"捷径":将所有输入映射到一个固定的表示,这样就能轻易地区分正负样本对,但失去了对输入的有效编码。
  3. 动量更新如何防止崩塌:

    • 创造"移动目标":键编码器的参数总是稍微落后于查询编码器,这创造了一个动态的学习目标。
    • 非对称更新:查询编码器通过梯度下降快速更新,而键编码器缓慢更新,这种不对称性防止了两个编码器简单地"合谋"找到trivial solution。
    • 历史信息的整合:键编码器包含了过去多个批次的累积信息,这增加了表示的多样性和稳定性。
  4. 具体机制:

    • 假设在某一时刻,查询编码器开始将所有输入映射到相似的点。
    • 由于键编码器更新较慢,它仍然保持较好的区分能力。
    • 这种不一致性会在对比学习中产生较大的损失,促使查询编码器改进其表示。
    • 随着训练继续,这种动态平衡持续存在,防止表示退化。
  5. 类比理解:

    • 可以将其类比为"追逐游戏":查询编码器(追逐者)试图追上键编码器(被追逐者)。
    • 但键编码器总是稍微领先,这种持续的"追逐"确保了学习过程的持续性和有效性。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐