Hinton提出的经典防过拟合方法Dropout，只是SDR的特例

1 引言

论文：Dropout is a special case of the stochastic delta rule: faster and more accurate deep learning

论文地址：
https://arxiv.org/pdf/1808.03578v1.pdf

5 实验结果

表 1：采用 SDR 的 DenseNet 与采用 dropout 的 DenseNet 误差率对比

上述结果表明，在 DenseNet 测试中，用 SDR 替换 dropout 技术会使所有 CIFAR 基准测试的误差减少 50 % 以上，降幅高达 64%。原始 DenseNet 实现的误差结果低于原始 DenseNet 论文中的误差结果，因为我们发现使用更大的批处理会带来更高的总体准确率。

表 2：达到训练误差率为 15%，10%，5% 分别所需的 epoch 数量。

如表 2 所示，使用 SDR 后，在训练中将误差率降到 15%，10%，5% 所需的时间明显缩短。使用了 SDR 的 DenseNet-40 只需要原本 1/6 的 epoch 就能够取得 5% 的误差率，而使用了 SDR 的 DenseNet-100 则只需原来 60% 的 epoch 就能实现 5% 的误差率。

图 3：采用 dropout 的 DenseNet-100 训练 100 个 epoch 之后的准确率（橙色曲线）和采用 SDR 的 DenseNet-100 训练 100 个 epoch 的准确率（蓝色曲线）。比起 dropout，SDR 不仅能够更快地提高训练准确率（训练 17 个 epoch 达到了 96% 的准确率，drouout 达到相同的准确率需要 33 个 epoch），而且还能够在训练 40 个 epoch 后达到 98% 的准确率。

图 4：表示采用 SDR 的 DenseNet-100 的第 21 层第 1 块的权重值频率的直方图，其中每个切片都是来自训练一个 epoch 的 snapshot，而最上面的切片是来自第一个 epoch 的 snapshot。在训练 100 个 epoch 的过程中，随着权值的标准差趋近于零，曲线变窄。

2 随机 delta 规则

众所周知，实际的神经传播包含噪声。如果一个皮质分离的神经元周期性地受到完全相同的刺激，它永远不会产生相同的反应（如烧伤等刺激）。设计 SDR 的部分原因是生物系统中通过神经元传递信号的随机性。显然，平滑的神经速率函数是建立在大量的刺激试验基础上的。这让我们想到了一种实现方法，即两个神经元之间的突触可以用一个具有固定参数的分布来建模。与这种分布相关的随机变量在时域内可能是一个 Gamma 分布（或在分级响应中，参见泊松分布）。在这里，我们假设有一个符合中心极限定理的独立同分布集合，并且采用高斯分布作为一般形式。尽管如此，对于独立成分分析（ICA）来说，同等情况下，长尾分布可能更具优势。

图 1：SDR 采样

如图 1 所示，我们按照图中的方法实现采用均值为 μwij、标准差为 σwij 的高斯随机变量的 SDR 算法。因此，将从高斯随机变量中采样得到每个权值，作为一种前馈运算。实际上，与 Dropout 类似，指数级别的络集合通过训练期间的更新采样获取。与 Dropout 在这一点上的区别是，SDR 会调整每个权重上附加的隐藏单元的权重和影响，以便在更新时随误差梯度自适应地变化。这里的效果也与 Dropout 相类似，除了每个隐藏单元的响应会分解到权重上（与分类误差对信用分配的影响成比例）。因此，每个权重梯度本身也是基于隐藏单元预测性能的随机变量，它让系统能够：（1）在相同的例程/刺激下接受多值响应假设，（2）保留一个预测历史，与 Dropout 不同，Dropout 是局部的隐藏单元权重，在某个集合上是有条件的，甚至是一个特定的例程（3）可能返回由于贪婪搜索得到的性能较差的局部最小值，但是同时也远离了更好的局部最小值。局部噪声注入的结果对络的收敛具有全局影响，并且为深度学习提供了更高的搜索效率。最后一个优点是，如 G. Hinton 所说，局部噪声注入可能通过模型平均平滑误差表面的沟壑，使模型能够更快更稳定地收敛到更好的局部最小值。

图 2：Dropout 采样

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

Hinton提出的经典防过拟合方法Dropout，只是SDR的特例

相关推荐