最详细的Transformer讲解，Attention Is All You Need

前言Attention Is All You NeedGoogle Brain 引用量：30255（1/3 ResNet）贡献：Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN。一直听别人说Transformer，搞不清楚是什么。可以不用，但是需要理解。但现有的博客，感觉大多轻飘飘的，甚至没讲清楚 attention 和 self-atten

低吟浅笑

8471人浏览 · 2021-11-13 11:16:28

低吟浅笑 · 2021-11-13 11:16:28 发布

前言

Attention Is All You Need

Google Brain 引用量：30255（1/3 ResNet）

贡献：Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN。

一直听别人说Transformer，搞不清楚是什么。可以不用，但是需要理解。

但现有的博客，感觉大多轻飘飘的，甚至没讲清楚 attention 和 self-attention的区别，q，k，v表示什么意义，怎么引入等等。

我这里做了一点小总结，PPT 下载链接在最下面，麻烦点赞，感谢阅读。

建议学习路线：李宏毅课程（宏观理解）--->原文阅读（细节阅读）--->结合我下面PPT的讲义（串讲+总结+引申）。当然先看我的讲义有个初步理解也OK，食用顺序取决于大家。

李宏毅课程：李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1JE411g7XF?p=54

Transformer原文：

https://arxiv.org/abs/1706.03762https://arxiv.org/abs/1706.03762

一、Transformer背景

二、Transformer内容介绍

PS：这个动图详细的解释了所有的过程，这里我用语言总结下，Encoder包含1，2，3层，Decoder同样，首先Encoder不同之间相互作用，这个很好理解，对于Decoder，Decoder2在解析的过程中，需要用到Decoder2之前的中间信息，以及Input通过Encoder后的信息，但是不会用到Decoder1和Decoder3的信息。图建议仔细看三次，对整个Transformer的过程有个理解。

三、Transformer Result

最后附加PPT下载链接，感谢大家，希望多点赞👍

链接: https://pan.baidu.com/s/1TAOdOilXAxA8_5vE9_849g?pwd=gje4 提取码: gje4
--来自百度网盘超级会员v5的分享

CSDN 0 积分下载：

https://download.csdn.net/download/qq_37424778/88541190?spm=1001.2014.3001.5501

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

B端拓客号码核验：行业困局审视与技术革新的路径探索氪迹科技法人股东号码筛选系统

B端客户拓展中，核心决策人号码核验存在三大痛点：精准度低导致无效线索占比高、定价不规范推高批量使用成本、静态数据更新滞后造成隐性损耗。新型AI实时核验模式通过算法赋能实现98%精准度，实时运算解决数据滞后问题，并将成本降至行业均价的1/3，为电销、金融、B2B营销等场景提供高效解决方案。该模式以技术替代传统人工清洗，实现"精准、高效、低成本"的协同优化，推动B端拓客行业向&qu

cover

AI人工智能——详解人工智能算力高质量发展评估体系报告【附全文阅读】

cover

AMD锐龙AI Max系列带来全形态全生态全场景优势，开启智能体主机时代

所有评论(0)

查看更多评论

低吟浅笑

已为社区贡献8条内容