Collections

合集

用来承载专题、系列文章和长期项目。

反向传播起源

3

舍入误差、Taylor 系数与 reverse-mode 的数值分析前史 / Werbos 1982:低成本导数通向灵敏度分析与学习算法 / 隐藏层的训练信号:重读 Back-Propagating Errors

文献阅读总结

1

Attention Is All You Need:全局注意力如何重写序列计算