Hinton提出的经典防过拟合方法Dropout,只是SDR的特例

1 引言

论文:Dropout is a special case of the stochastic delta rule: faster and more accurate deep learning

论文地址:
https://arxiv.org/pdf/1808.03578v1.pdf

5 实验结果

表 1:采用 SDR 的 DenseNet 与采用 dropout 的 DenseNet 误差率对比

上述结果表明,在 DenseNet 测试中,用 SDR 替换 dropout 技术会使所有 CIFAR 基准测试的误差减少 50 % 以上,降幅高达 64%。原始 DenseNet 实现的误差结果低于原始 DenseNet 论文中的误差结果,因为我们发现使用更大的批处理会带来更高的总体准确率。

表 2:达到训练误差率为 15%,10%,5% 分别所需的 epoch 数量。

如表 2 所示,使用 SDR 后,在训练中将误差率降到 15%,10%,5% 所需的时间明显缩短。使用了 SDR 的 DenseNet-40 只需要原本 1/6 的 epoch 就能够取得 5% 的误差率,而使用了 SDR 的 DenseNet-100 则只需原来 60% 的 epoch 就能实现 5% 的误差率。

图 3:采用 dropout 的 DenseNet-100 训练 100 个 epoch 之后的准确率(橙色曲线)和采用 SDR 的 DenseNet-100 训练 100 个 epoch 的准确率(蓝色曲线)。比起 dropout,SDR 不仅能够更快地提高训练准确率(训练 17 个 epoch 达到了 96% 的准确率,drouout 达到相同的准确率需要 33 个 epoch),而且还能够在训练 40 个 epoch 后达到 98% 的准确率。

图 4:表示采用 SDR 的 DenseNet-100 的第 21 层第 1 块的权重值频率的直方图,其中每个切片都是来自训练一个 epoch 的 snapshot,而最上面的切片是来自第一个 epoch 的 snapshot。在训练 100 个 epoch 的过程中,随着权值的标准差趋近于零,曲线变窄。

2 随机 delta 规则

众所周知,实际的神经传播包含噪声。如果一个皮质分离的神经元周期性地受到完全相同的刺激,它永远不会产生相同的反应(如烧伤等刺激)。设计 SDR 的部分原因是生物系统中通过神经元传递信号的随机性。显然,平滑的神经速率函数是建立在大量的刺激试验基础上的。这让我们想到了一种实现方法,即两个神经元之间的突触可以用一个具有固定参数的分布来建模。与这种分布相关的随机变量在时域内可能是一个 Gamma 分布(或在分级响应中,参见泊松分布)。在这里,我们假设有一个符合中心极限定理的独立同分布集合,并且采用高斯分布作为一般形式。尽管如此,对于独立成分分析(ICA)来说,同等情况下,长尾分布可能更具优势。

图 1:SDR 采样

如图 1 所示,我们按照图中的方法实现采用均值为 μwij、标准差为 σwij 的高斯随机变量的 SDR 算法。因此,将从高斯随机变量中采样得到每个权值,作为一种前馈运算。实际上,与 Dropout 类似,指数级别的 络集合通过训练期间的更新采样获取。与 Dropout 在这一点上的区别是,SDR 会调整每个权重上附加的隐藏单元的权重和影响,以便在更新时随误差梯度自适应地变化。这里的效果也与 Dropout 相类似,除了每个隐藏单元的响应会分解到权重上(与分类误差对信用分配的影响成比例)。因此,每个权重梯度本身也是基于隐藏单元预测性能的随机变量,它让系统能够:(1)在相同的例程/刺激下接受多值响应假设,(2)保留一个预测历史,与 Dropout 不同,Dropout 是局部的隐藏单元权重,在某个集合上是有条件的,甚至是一个特定的例程(3)可能返回由于贪婪搜索得到的性能较差的局部最小值,但是同时也远离了更好的局部最小值。局部噪声注入的结果对 络的收敛具有全局影响,并且为深度学习提供了更高的搜索效率。最后一个优点是,如 G. Hinton 所说,局部噪声注入可能通过模型平均平滑误差表面的沟壑,使模型能够更快更稳定地收敛到更好的局部最小值。

图 2:Dropout 采样

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2018年8月19日
下一篇 2018年8月19日

相关推荐