低成本导数如何打开 AI 与神经元建模:重读 Werbos 1982
Werbos 1982 把 nonlinear sensitivity analysis 的核心问题收束为低成本导数计算,并用 ordered derivatives 把灵敏度分析、优化、统计估计与 AI / neuron modelling 连到同一条技术线上。
4 篇文章
Werbos 1982 把 nonlinear sensitivity analysis 的核心问题收束为低成本导数计算,并用 ordered derivatives 把灵敏度分析、优化、统计估计与 AI / neuron modelling 连到同一条技术线上。
这篇 1986 年 Nature 论文把多层网络训练中的核心难题说清楚了:输出端的偏差如何转化为隐藏层可用的学习信号,以及这种信号为何会让内部表征逐步变得可学习。
这篇 1976 年论文讨论的是有限精度计算中的累计舍入误差,但它已经把“沿着复合计算过程回收影响系数”这一件事说得很清楚,也同时暴露了后来 reverse-mode 一直要面对的存储代价。
基于论文原文重建 Transformer 的核心论证:作者为何要摆脱 recurrence,self-attention 与 multi-head 分别解决了什么问题,以及训练与实验究竟支撑了哪些结论。