目录

目录

前言

embedding

MHA:多头注意力机制。

MOE架构

对比encoder_only,encoder_decoder,decoder_only


前言

碎碎念:无相,喝水是一把利器。上海

       transformer简单来说就是一个函数,输入一个序列,预测下一个token是什么

embedding

dense word embedding 本质上就是通过训练让相似的词在向量空间里距离更近。对比一下one-hot彼此正交无法,embedding余弦距离可以衡量语义相关性

在transformer的输入层有词嵌入模块。主要包括:token embedding词元嵌入,position embedding位置嵌入,segment embedding分段嵌入。

positional embedding 就是记录词的sequence  相对index

补充:word2vec

将单词映射为连续向量

架构:skip-gram, continuous-bag-of-words(cbow),

MHA:多头注意力机制。

衍生来了分组查询注意力GQA,多头潜在注意力MLA

每个注意力头在不同的子空间学习不同类型的相关性,例如不同的头关注(语法结构,长程依赖)最后将不同的头的输出拼接。(举个例子多头注意力就像专家团队,每个专家关注和解决不同的问题,最后汇总得到更全面的认识)。

局限性:重复计算和内存劣势。  用到kv缓存

具有transformer架构的模型:BERT,gpt,llama,T5

在注意力矩阵中,第i行第j列数值表示,位置i的token作为query对位置j的token(作为key)的注意力权重。高权重代表语义相关度高,反之。

MOE架构

混合专家网络。mixture of experts

专家⽹络是指MoE模型中的多个⼦⽹络(即“专家”)。每个专家通常是功能相同结构类似的神经⽹络模 块(例如Transformer中前馈⽹络部分),但在训练过程中可各⾃学习不同的专⻓。在经典MoE中,这些 专家共同构成模型的⼀层或若⼲层,仅有⼀部分专家会针对每个输⼊样本被激活。通过这种⽅式,模型 参数规模可以⾮常庞⼤,但每次推理或训练仅计算⼀⼩部分参数,从⽽保持计算成本近似恒定。这种架 构提⾼了模型容量(参数数⽬巨⼤带来的表示能⼒)与计算效率的折中:例如Switch Transformer模型 具有⾼达1.6万亿参数,但其训练计算量与⼀个100亿参数的稠密模型相当。

门控路由机制

MOE关键组件,决定每个输入应有哪一个或者那几个专家处理

⻔控⽹络通常是⼀个简单的前馈层,它根据输⼊特征计算针对每个专家的打分(logits),再通 过⼀定函数将打分转换为概率或权重分布,⽤以选择专家。按照路由决策的不同⽅式,可分为软路由和 硬路由两种:软路由(soft gating)会根据⻔控⽹络输出的概率加权融合多个专家的结果(极端情况下 可融合同层所有专家的输出,代价是计算开销巨⼤);⽽硬路由(hard gating)则只选择得分最⾼的⼏个专家,丢弃其他专家的输出,从⽽使每次仅激活少数专家参与计算。硬路由通常通过⾮零梯度近似或 辅助损失进⾏训练,代表性实例是Switch Transformer中每个token仅选取单⼀专家(相当于_top-1_路 由),这种硬选取⼤幅减少了计算与通信成本。软硬路由各有优劣:软路由更平滑但计算开销⼤,硬路 由更⾼效但需要应对离散选择带来的训练不稳定等问题。

TOP-K激活 Routing
Top-K路由是硬路由的⼀种实现⽅式,即针对每个输⼊(如⼀个token或样本),按照⻔控得分选择出排 名前K的专家来计算。经典的稀疏MoE模型中常⽤_top-2_或_top-1_策略:例如“top-2”表示每个token 同时由得分最⾼的2个专家处理,然后将它们的输出按照对应权重相加作为该层输出;⽽Google提出的 Switch Transformer将这⼀策略推到极致,每次仅选取top-1专家(即每token只由单个专家处理),并 将此称为“硬路由”。采⽤更⼩的K值可以显著减少计算和跨设备通信:Switch Transformer的实验表 明,在T5模型中将每层FFN替换为128个专家并使⽤K=1路由时,预训练速度提升了约4倍,同时成功扩 展模型参数⾄万亿量级。当然,减⼩K值可能略微影响模型收敛性能,因此实际应⽤中会权衡K取值:许 多MoE模型选择K=1以最⼤化效率,也有⼀些采⽤K=2以获得更⾼精度。
负载均衡
负载均衡是确保不同 的专家被选中的概率均衡,以防止个别专家过度使用而其他专家几乎闲置

对比encoder_only,encoder_decoder,decoder_only 

transformer架构为什么好?  

并行效率高,深入理解词与词之间的关系,架构通用(跨模态,标准化)


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐