论文精读 | Taoctics

2026年4月23日

Werbos 1982 把 nonlinear sensitivity analysis 的核心问题收束为低成本导数计算，并用 ordered derivatives 把灵敏度分析、优化、统计估计与 AI / neuron modelling 连到同一条技术线上。

2026年4月23日

这篇 1986 年 Nature 论文把多层网络训练中的核心难题说清楚了：输出端的偏差如何转化为隐藏层可用的学习信号，以及这种信号为何会让内部表征逐步变得可学习。

2026年4月23日

这篇 1976 年论文讨论的是有限精度计算中的累计舍入误差，但它已经把“沿着复合计算过程回收影响系数”这一件事说得很清楚，也同时暴露了后来 reverse-mode 一直要面对的存储代价。

2026年4月22日

基于论文原文重建 Transformer 的核心论证：作者为何要摆脱 recurrence，self-attention 与 multi-head 分别解决了什么问题，以及训练与实验究竟支撑了哪些结论。