Post

当误差能够穿过隐藏层：重读 Rumelhart、Hinton、Williams 1986

这篇 1986 年 Nature 论文把多层网络训练中的核心难题说清楚了：输出端的偏差如何转化为隐藏层可用的学习信号，以及这种信号为何会让内部表征逐步变得可学习。

2026年4月23日

分类

机器学习论文精读

标签

Backpropagation Geoffrey Hinton 反向传播神经网络论文精读

合集

反向传播起源

论文元信息

论文标题：Learning representations by back-propagating errors
作者：David E. Rumelhart, Geoffrey E. Hinton, Ronald J. Williams
年份：1986
发表 venue：Nature
DOI：10.1038/323533a0
本文依据版本：本地保存的 Nature 页面摘要与元数据；标题、作者、年份、期刊与 DOI 以该版本及 metadata-summary.json 为准
这篇论文在反向传播史中的位置：让 back-propagation 在神经网络社区广泛传播和落地的经典论文

这篇论文最值得抓住的中心问题，可以直接从标题里读出来：作者关心的不是单纯“如何减小输出误差”，而是如何通过回传误差来学习表征。摘要也把重点写得很明确：连接权重被反复调整之后，那些既不属于输入端、也不属于输出端的隐藏单元，会开始表示任务领域中的重要特征；任务中的规律，则由这些单元之间的相互作用捕获。

为什么隐藏层曾经构成训练障碍

从摘要给出的设定出发，网络有一个实际输出向量，也有一个期望输出向量。对于输出层，二者之间的差异可以直接定义成某种误差测度；训练过程的目标，就是不断调节连接权重，使这种差异下降。

困难在于，隐藏层并没有现成的“期望隐藏表示”可供比较。输入层接收数据，输出层接收目标，隐藏层夹在中间。如果学习程序只能在有直接目标的地方起作用，那么多层网络虽然在结构上更灵活，训练却会在内部停住：你知道最后错了，却不知道中间哪些连接该为这个错误负责。

这正是标题里的 “back-propagating errors” 所指向的问题。作者给出的关键想法是：输出端已经观察到的误差，不必停留在网络末端；它可以沿着连接关系向网络内部传播。这样一来，隐藏层虽然没有独立标签，仍然能够从最终输出的偏差中获得训练依据。多层网络之所以变得可训练，不是因为隐藏层突然有了人工标注，而是因为误差信号第一次能够系统地进入这些内部单元。

训练信号怎样进入隐藏层

摘要把整个过程概括成一个反复执行的学习程序：不断调整网络中的连接权重，以减小实际输出向量与期望输出向量之间的差异。用最简洁的方式写，可以把训练目标记作

E = E(\text{actual output}, \text{desired output})

这里的 $E$ 只是“输出差异的某种度量”。论文摘要没有展开具体形式，但已经足够说明一件事：每一次权重调整，都是围绕“怎样让这个差异更小”来进行的。

关键变化发生在“谁能收到这个目标”的层面。若某个连接虽然不直接连到输出单元，却会通过后续路径影响最终输出，那么它也应当根据自己对 $E$ 的影响来更新。于是，学习信号不再只属于最后一层；它沿着网络的依赖关系向前一层、再向前一层传递。隐藏层里的单元由此获得了一个非常具体的训练标准：当前活动方式是否有助于让最终输出更接近期望输出。

这一步带来的后果很深。隐藏单元不再只是结构上的中继站，它们开始参与一个受目标驱动的调整过程。每次误差回传，都在重塑这些内部连接；而每次内部连接重塑，又会改变下一轮前向计算中隐藏单元能够表达什么。训练信号和内部表示因此被绑在一起：误差能够进入哪里，表示就能在哪里被学习。

为什么这等于“内部表征变得可学习”

摘要里最重要的一句，未必是“误差被最小化”，而是“隐藏单元会开始表示任务领域中的重要特征”。这句话说明作者对 back-propagation 的理解并不止于优化过程本身。他们强调的是，随着权重调整，网络内部会形成对任务有用的特征组织。

这也是论文标题里 “learning representations” 的分量所在。学习不只发生在输出层对既有特征的线性组合上，学习还发生在网络内部的新特征形成上。隐藏层的单元之所以能承担这种角色，是因为它们接收到了与任务目标相关的训练信号。一个隐藏单元若持续朝着更能降低输出误差的方向被塑形，它最终保留下来的活动模式，就更可能对应于任务中稳定、可利用的结构。

摘要最后还给出了一条非常重要的比较：back-propagation 与更早、也更简单的方法相比，区别在于它能够创造有用的新特征。这句话把论文的贡献压缩得很准确。早期方法可以在已有输入表示上做调整，而这篇论文强调的是，多层网络在误差驱动下可以把“中间该表示什么”也纳入学习过程。隐藏层从此不再只是人为设计后的固定接口，而成为可被训练塑造的表示层。

这篇论文真正建立了什么边界

依据现有来源，这篇论文可以支持的核心结论有三点。

第一，它提出并描述了一种新的学习程序 back-propagation，用于由类神经元单元构成的网络。第二，这个程序通过反复调整连接权重，去减小网络实际输出与期望输出之间的差异。第三，在这一过程中，隐藏单元会逐渐表示任务领域中的重要特征，任务中的规律则由这些单元之间的相互作用来捕获。

同样需要保留边界。仅凭当前来源，不能把这篇短文扩写成后来所有深层训练技术的总说明，也不能把它说成反向传播全部数学前史的起点。metadata-summary.json 给出的定位更稳妥：它是让反向传播在神经网络社区广泛传播和落地的经典论文。因此，读这篇文章时最应该把握的，不是事后视角下整套深度学习史，而是一个更直接的问题：当输出误差能够进入隐藏层之后，多层网络第一次拥有了学习内部表征的机制。

如果只保留一句复习锚点，我会写成这样：这篇 1986 年论文把隐藏层从“没有监督的内部结构”变成了“能够从最终误差中获得训练信号的表示层”，而这正是多层网络可学习性的关键转折。

参考文献

[1] David E. Rumelhart, Geoffrey E. Hinton, Ronald J. Williams. Learning representations by back-propagating errors. Nature, 1986. DOI: 10.1038/323533a0.