Werbos 1982:低成本导数通向灵敏度分析与学习算法
Werbos 1982 把大型非线性系统中的灵敏度分析收束为低成本导数计算问题,并用 ordered derivatives、前向扰动与反向递推的成本差异,把模型分析、优化、统计估计、AI 与 neuron modelling 放到同一条技术线上。
Werbos 1982 把大型非线性系统中的灵敏度分析收束为低成本导数计算问题,并用 ordered derivatives、前向扰动与反向递推的成本差异,把模型分析、优化、统计估计、AI 与 neuron modelling 放到同一条技术线上。
重读 Rumelhart、Hinton 与 Williams 1986 年 Nature 论文:输出误差如何被转化为隐藏层的学习信号,权重更新怎样形成可训练的内部表征,以及这篇短文在反向传播历史中真正确立了什么。
Linnainmaa 1976 年论文从有限精度计算出发,把累计舍入误差写成局部误差的 Taylor 展开,并由此暴露出 reverse-mode automatic differentiation 后来长期面对的两件事:反向累积影响系数与保存计算轨迹的存储代价。
基于论文原文重建 Transformer 的核心论证:sequence transduction 为什么要减少顺序计算,self-attention 如何承担序列内部的信息交换,multi-head、FFN 与位置编码分别补上什么,以及训练和实验究竟支撑了哪些边界内的结论。