在这里插入图片描述
上图是Transformer中编码器的部分,谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12
分别表示的意思是:
12个transformer-block(也称为12层)
768 embedding-dimension(字向量)的维度=768
12注意力机制头的个数

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐