Post
Werbos 1982:低成本导数通向灵敏度分析与学习算法
Werbos 1982 把大型非线性系统中的灵敏度分析收束为低成本导数计算问题,并用 ordered derivatives、前向扰动与反向递推的成本差异,把模型分析、优化、统计估计、AI 与 neuron modelling 放到同一条技术线上。
Werbos 1982 的入口不是神经网络教程式的“如何训练多层感知机”,而是美国 Energy Information Administration 面对的大型非线性建模问题。EIA 使用计量经济模型、线性规划模型、非线性微观均衡模型以及混合模型来分析能源供需。模型一旦被用来支持预测和政策判断,用户自然会追问:如果初值、假设、外生变量或局部结构稍有变化,最终结论会怎样变化。
这类问题把灵敏度分析推到中心位置。Werbos 在摘要中说,论文总结了一组以 minimum cost 进行 differentiation 与 optimization 的算法性质和应用,应用范围包括模型灵敏度分析、统计或计量估计、优化、artificial intelligence 与 neuron modelling。贯穿全文的线索因此很清楚:低成本导数是一种基础计算能力;ordered derivatives 是组织这种能力的对象;一旦导数计算足够便宜,随机优化和学习算法才有现实可操作性。
低成本导数作为基础能力
论文给出的示例是一个按时间推进的非线性系统:
其中 是 维内生变量, 是外生变量。若每个方程大约有 项,系统运行 个时期,那么整段模拟的成本可写成
这个成本估计的意义在于,导数计算不能被当成可无限重复的附属步骤。若为了得到每个输入扰动的影响都重新模拟整个系统,灵敏度分析会迅速变得昂贵。模型越大、时间跨度越长、变量越多,朴素扰动法越难支撑实际分析工作。
Werbos 关注的对象是低成本的一阶和二阶导数。它们服务于多个任务:模型灵敏度分析需要知道局部变化怎样影响最终结果;deterministic optimization 需要目标函数对决策变量的导数;统计和计量估计需要在参数空间中调整模型;stochastic optimization 也依赖可负担的梯度信息。论文把这些任务放在一起,不是因为它们共享同一个应用领域,而是因为它们都被同一个计算瓶颈限制:导数必须足够便宜。
ordered derivatives 与有序依赖
Werbos 把基本量称为 ordered derivative。直观地说,它刻画的是早期变量对晚期变量的影响。例如,初始时刻某个分量 的微小变化,会怎样影响终点时刻某个分量 :
论文指出,这类量在不同领域有不同名字:在建模中常叫 sensitivity coefficient,在经济学中叫 impact multiplier,在电气工程中可称为 transient response 或 constrained derivative。Werbos 选择 ordered derivative,是为了强调它依赖系统演化顺序。这里的导数不是一个静态函数上的孤立偏导,而是沿时间展开的非线性系统中,早期状态经过多步变换后对晚期状态产生的影响。
若把每一步的局部 Jacobian 写成
那么从 到 的影响可由 Jacobian 乘积表达:
这个式子展示了 ordered derivative 的核心结构:每一步只描述相邻时刻的局部变化,长程影响来自这些局部变化沿时间顺序的复合。若真正关心的是某个关于 或中间状态的目标函数 ,也可以把该函数或其累计量加入系统变量中,使同一套导数计算服务于目标优化。
前向扰动与反向递推的成本分野
论文 Figure 2 比较了两种计算 ordered derivatives 的方式。常规 forward method 固定一个初始分量 ,向前传播它对后续状态的影响。若记
则前向递推为
这种方法适合回答“一个早期扰动会影响哪些后续量”。如果需要得到完整的导数矩阵,就要对许多初始方向重复这种传播。论文图中把完整矩阵画成一个大方块,提示读者:全量灵敏度信息的成本可能远高于一次模拟本身。
反向方法从最终关心的量出发。若目标是标量 ,令
则反向递推可以写成
这个转置 Jacobian 的递推正是 later reverse-mode 视角中最熟悉的结构。它适合回答“一个最终目标受哪些早期变量影响”。当输出目标较少、输入变量很多时,反向递推能够以接近一次系统模拟加一次反向扫描的成本得到目标对大量早期变量的梯度。
Werbos 特别提示 往往远大于 。状态维度可以很大,但每个方程的局部项数相对较小。这个条件使得利用局部结构传播导数变得重要:算法不应把所有变量对所有变量的关系当作稠密矩阵暴力展开,而应沿系统实际依赖关系组织计算。低成本导数的优势正来自这里。
从灵敏度分析到 AI 与神经元建模
论文摘要和正文都把 artificial intelligence 与 neuron modelling 放进应用范围。正文进一步说明,后半部分将讨论一种 stochastic optimization 方法,这种方法只有在 low-cost derivatives 的帮助下才变得可行,并会为 AI 与神经元建模打开新的路径。这里的连接方式是计算性的:学习系统需要在高维参数或状态空间中优化,若梯度计算成本过高,算法只会停留在概念上;若导数足够便宜,随机优化过程才可能被实际执行。
从反向传播历史看,Werbos 1982 的位置正处在两条线之间。一边是控制、灵敏度分析和 automatic differentiation 传统中已经存在的导数递推思想;另一边是多层网络训练中需要把输出目标的误差信息分配给内部参数。ordered derivatives 提供了桥梁:它把“早期变量怎样影响后期目标”变成可递推的导数计算问题,也为多层系统中的信用分配提供了形式化语言。
需要保持边界。根据本文可见论证,Werbos 1982 的重点是 minimum-cost differentiation and optimization 的性质与应用范围;它把 AI 与 neuron modelling 接到低成本导数和随机优化的延长线上。把它纳入 backpropagation 起源链条,是因为它明确展示了反向递推式导数计算如何服务学习和优化,而不是因为它采用了后来神经网络教材中的完整表述方式。
低成本导数通向学习算法
这篇论文最适合作为反向传播起源系列中的中间节点来读。Linnainmaa 1976 从数值分析中展示了反向累积影响系数的结构;Werbos 1982 则把这种低成本导数能力放入大型非线性系统、优化和 AI / neuron modelling 的应用视野;Rumelhart、Hinton 与 Williams 1986 进一步把误差回传写成神经网络社区可直接使用的学习程序。
Werbos 1982 留下的复习锚点可以压缩成三点。第一,ordered derivatives 描述有序系统中早期变量对晚期变量或目标函数的影响。第二,前向扰动和反向递推对应不同导数任务:前者适合固定输入方向看输出变化,后者适合固定目标看大量输入变量的梯度。第三,低成本导数把灵敏度分析、优化、统计估计和学习算法连接到同一条计算主线上。