Transformer中的Layer和heads到底是什么？

上图是Transformer中编码器的部分，谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12分别表示的意思是：12个transformer-block768 embedding-dimension(字向量)的维度=76812注意力机制头的个数

有梦想有行动

4004人浏览 · 2020-08-02 17:57:16

有梦想有行动 · 2020-08-02 17:57:16 发布

在这里插入图片描述
上图是Transformer中编码器的部分，谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12
分别表示的意思是：
12个transformer-block(也称为12层)
768 embedding-dimension(字向量)的维度=768
12注意力机制头的个数

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【收藏级】2026 年 AI 大模型保姆级学习路线，小白 / 程序员从零入门到落地精通

2048 AI社区

Codex使用技巧：深度解析 Plan Mode 与 Goal Mode

AI编程工具正从"代码补全"向"持续任务执行"进化。OpenAI推出的PlanMode和GoalMode标志着AI编程范式的重大升级：PlanMode让AI先规划技术方案再执行，避免盲目修改；GoalMode则使AI能围绕目标持续迭代，具备闭环执行能力。这两种模式让AI从"聊天机器人"转变为真正的工程协作者，开发者角色也将从编码转向目标定