大模型面试题35:Pre-LayerNorm vs Post-LayerNorm对深层Transformer训练稳定性
Pre-LN是“先调味再炒菜”,提前稳住食材状态,深层堆叠也不容易翻车;Post-LN是“先炒菜再调味”,浅层还行,深层就容易炒糊——实验的核心就是看谁在“炒很多遍”后还能保持好味道。通过控制变量法,对比不同层数下Pre/Post-LN的损失曲线、梯度范数和模型效果,可验证Pre-LN通过提前标准化特征分布,显著提升深层Transformer的训练稳定性,而Post-LN在深层时易出现梯度发散问题
所有评论(0)