大模型训练_week2_day10_《穷途末路》

碎碎念：无相，喝水是一把利器。上海transformer简单来说就是一个函数，输入一个序列，预测下一个token是什么。

m0_71151529

549人浏览 · 2026-01-09 20:42:53

m0_71151529 · 2026-01-09 20:42:53 发布

前言

碎碎念：无相，喝水是一把利器。上海

transformer简单来说就是一个函数，输入一个序列，预测下一个token是什么

embedding

dense word embedding 本质上就是通过训练让相似的词在向量空间里距离更近。对比一下one-hot彼此正交无法，embedding余弦距离可以衡量语义相关性

在transformer的输入层有词嵌入模块。主要包括：token embedding词元嵌入，position embedding位置嵌入，segment embedding分段嵌入。

positional embedding 就是记录词的sequence 相对index

补充：word2vec

将单词映射为连续向量

架构：skip-gram, continuous-bag-of-words(cbow),

MHA：多头注意力机制。

衍生来了分组查询注意力GQA，多头潜在注意力MLA

每个注意力头在不同的子空间学习不同类型的相关性，例如不同的头关注（语法结构，长程依赖）最后将不同的头的输出拼接。（举个例子多头注意力就像专家团队，每个专家关注和解决不同的问题，最后汇总得到更全面的认识）。

局限性：重复计算和内存劣势。用到kv缓存

具有transformer架构的模型：BERT，gpt，llama，T5

在注意力矩阵中，第i行第j列数值表示，位置i的token作为query对位置j的token（作为key）的注意力权重。高权重代表语义相关度高，反之。

MOE架构

混合专家网络。mixture of experts

专家⽹络是指MoE模型中的多个⼦⽹络（即“专家”）。每个专家通常是功能相同结构类似的神经⽹络模块（例如Transformer中前馈⽹络部分），但在训练过程中可各⾃学习不同的专⻓。在经典MoE中，这些专家共同构成模型的⼀层或若⼲层，仅有⼀部分专家会针对每个输⼊样本被激活。通过这种⽅式，模型参数规模可以⾮常庞⼤，但每次推理或训练仅计算⼀⼩部分参数，从⽽保持计算成本近似恒定。这种架构提⾼了模型容量（参数数⽬巨⼤带来的表示能⼒）与计算效率的折中：例如Switch Transformer模型具有⾼达1.6万亿参数，但其训练计算量与⼀个100亿参数的稠密模型相当。

门控路由机制

MOE关键组件，决定每个输入应有哪一个或者那几个专家处理

⻔控⽹络通常是⼀个简单的前馈层，它根据输⼊特征计算针对每个专家的打分（logits），再通过⼀定函数将打分转换为概率或权重分布，⽤以选择专家。按照路由决策的不同⽅式，可分为软路由和硬路由两种：软路由（soft gating）会根据⻔控⽹络输出的概率加权融合多个专家的结果（极端情况下可融合同层所有专家的输出，代价是计算开销巨⼤）；⽽硬路由（hard gating）则只选择得分最⾼的⼏个专家，丢弃其他专家的输出，从⽽使每次仅激活少数专家参与计算。硬路由通常通过⾮零梯度近似或辅助损失进⾏训练，代表性实例是Switch Transformer中每个token仅选取单⼀专家（相当于_top-1_路由），这种硬选取⼤幅减少了计算与通信成本。软硬路由各有优劣：软路由更平滑但计算开销⼤，硬路由更⾼效但需要应对离散选择带来的训练不稳定等问题。

TOP-K激活 Routing

Top-K路由是硬路由的⼀种实现⽅式，即针对每个输⼊（如⼀个token或样本），按照⻔控得分选择出排名前K的专家来计算。经典的稀疏MoE模型中常⽤_top-2_或_top-1_策略：例如“top-2”表示每个token 同时由得分最⾼的2个专家处理，然后将它们的输出按照对应权重相加作为该层输出；⽽Google提出的 Switch Transformer将这⼀策略推到极致，每次仅选取top-1专家（即每token只由单个专家处理），并将此称为“硬路由”。采⽤更⼩的K值可以显著减少计算和跨设备通信：Switch Transformer的实验表明，在T5模型中将每层FFN替换为128个专家并使⽤K=1路由时，预训练速度提升了约4倍，同时成功扩展模型参数⾄万亿量级。当然，减⼩K值可能略微影响模型收敛性能，因此实际应⽤中会权衡K取值：许多MoE模型选择K=1以最⼤化效率，也有⼀些采⽤K=2以获得更⾼精度。

负载均衡

负载均衡是确保不同的专家被选中的概率均衡，以防止个别专家过度使用而其他专家几乎闲置