Attention Is All You Need:全局注意力如何重写序列计算
基于论文原文重建 Transformer 的核心论证:sequence transduction 为什么要减少顺序计算,self-attention 如何承担序列内部的信息交换,multi-head、FFN 与位置编码分别补上什么,以及训练和实验究竟支撑了哪些边界内的结论。
1 篇文章
基于论文原文重建 Transformer 的核心论证:sequence transduction 为什么要减少顺序计算,self-attention 如何承担序列内部的信息交换,multi-head、FFN 与位置编码分别补上什么,以及训练和实验究竟支撑了哪些边界内的结论。