论文阅读:Training compute-optimal large language models
固定模型大小,变化训练序列长度 (与kaplan等人不同的是,针对每一次训练运行,都调整了学习率的 Cosine 衰减周期,使其与计划的训练 Token 数相匹配),得到给定计算量下的的最低损失,对于任意给定的计算预算C,找出能达到最低 Loss 的模型大小N和数据量D,并通过拟合幂律公式。使用IsoFLOP轮廓,选定了 9 个固定的计算预算训练了多种不同大小的模型(对于特定的预算,当模型变大时,
所有评论(0)