Attention Is All You Need:为什么序列建模可以把循环拿掉
基于论文原文重建 Transformer 的核心论证:作者为何要摆脱 recurrence,self-attention 与 multi-head 分别解决了什么问题,以及训练与实验究竟支撑了哪些结论。
1 篇文章
基于论文原文重建 Transformer 的核心论证:作者为何要摆脱 recurrence,self-attention 与 multi-head 分别解决了什么问题,以及训练与实验究竟支撑了哪些结论。