动物与人类的关键学习期,深度神经 络也有

机器之心分析师 络

0 引言

1 深度 络中的关键学习期 [1]

1.1 问题阐述

图 1 给出了受缺陷影响的 络的最终性能,具体的,将该性能展示为纠正缺陷 epoch t_0 的函数。我们可以很容易地从图 1 中观察到一个关键时期的存在。如果在最初的 40-60 个 epoch 中没有去除模糊,那么与基线方法相比,最终的性能会严重下降(误差最多会增加三倍)。这种性能的下降遵循在动物身上普遍观察到的趋势,例如早期研究中证实的在小猫出生后被剥夺单眼的情况下观察到的视觉敏锐度的损失与缺陷的长度有关[7]。

图 1. DNN 中显示出的关键期

图 2.(左)High-level 的扰动并不会导致关键期。当缺陷只影响 high-level 特征(图像的垂直翻转)或 CNN 的最后一层(标签互换)时, 络不会表现出关键期(测试准确度基本保持平稳)。另一方面,类似于感知剥夺的缺陷(图像被随机噪声取代)确实会导致缺陷,但其影响没有图像模糊的情况那么严重。(右)关键期曲线对 络深度的依赖情况。添加更多的卷积层会增大关键期缺陷的影响。

图 3. 不同 DNN 架构和优化方案中的关键期

1.2 Fisher 信息分析

其中的 F 为 Fisher 信息矩阵(Fisher Information Matrix,FIM):

FIM 可以被认为是一个局部指标,用于衡量一个单一权重(或一个权重组合)的扰动对 络输出的影响程度。特别是,具有低 Fisher 信息的权重可以被改变或 “修剪”,对 络的性能影响不大。这表明,Fisher 信息可以作为 DNN 有效连接的衡量指标,或者,更广泛地说,作为连接的 “突触强度(synaptic strength)” 的衡量标准。最后,FIM 也是损失函数 Hessian 的半定逼近,因此也是训练过程中某一点ω的损失情况的曲率,在 FIM 和优化程序之间提供了一种关联性。

FIM 可以被确定为对模型中包含的训练数据信息量的一种衡量。在此基础上,人们会期望随着从经验中获得信息,连接(connection)的总体强度会单调地增加。然而,情况并非如此。虽然在早期阶段 络就获得了有关数据的信息,从而使得连接强度的大幅增加,但一旦任务的表现开始趋于平稳, 络就开始降低其连接的整体强度。然而,这并不对应于性能的降低,相反,性能一直在缓慢提高。这可以被看作是一个 “遗忘” 或 “压缩” 阶段,在这个阶段,多余的连接被消除,数据中不相关的变化被抛弃。在学习和大脑发育过程中,消除(”修剪”)不必要的突触是一个基本的过程,这一点已经得到了前期研究的证实(图 4,中心)[8]。在图 4(左)中,类似的现象在 DNN 中得到了清晰和定量的显示。

图 4. DNN 的关键期可追溯到 Fisher 信息的变化

图 5. 各层权重所含信息的归一化数量与训练 epoch 的关系。(左上)在没有缺陷的情况下, 络主要依靠中间层(3-4-5)来解决任务。(右上)在存在图像模糊缺陷的情况下,直到第 100 个 epoch,更多的资源被分配到高层(6-7),而不是中间层。(顶部中心)当缺陷在较早的 epoch 被消除时,各层可以部分地重新配置 (例如,第 6 层中信息的快速损失)。(最下面一行) 同样的图,但引入的是翻转缺陷,并不会诱发关键期

最后,对 FIM 的分析也揭示了损失函数的几何形状和学习动态。由于 FIM 可以被解释为残余分布 (landscape) 的局部曲率,图 4 显示,学习需要越过瓶颈阶段。在初始阶段, 络进入高曲率的区域(高 Fisher 信息),一旦开始进入巩固阶段,曲率就会下降,使其能够跨越瓶颈以进入后续阶段。收敛的早期阶段是引导 络走向 “正确的” 收敛结果的关键。关键期的结束是在 络跨越了所有的瓶颈(从而学会了特征)并进入一个收敛区域(低曲率的权重空间区域,或低 Fisher 信息)之后。

1.3 讨论

图 6. 训练期间梯度均值(实线)和标准偏差(虚线)的对数值。(左)不存在缺陷,(中)第 70 个 epoch 后出现模糊缺陷,(右)最后一个 epoch 出现缺陷。

除了与关键期的缺陷敏感性有密切的关系外,Fisher 信息还具有一些技术优势,包括对角线易估计、对互信息的选择估计器不敏感,以及能够辅助探测人工神经 络中各层有效连接的变化情况。

关注权重信息而不是激活或 络行为的一个好处是:在关键期有一个 “有效连接” 的读数。在人工和神经元 络中,消除缺陷后的 “行为” 读数有可能被视觉通路不同层次的缺陷适应性变化所混淆。

2 深度神经 络优化轨迹的损益平衡点 [5]

2.1 问题阐述

近年来,关于深度神经 络(DNNs)的研究和应用发展迅速,但关于其优化和泛化能力之间的联系并没有被完全理解。例如,使用一个大的初始学习率往往能够提高 DNNs 的泛化能力,但却是以减少初始训练损失为代价的。相比之下,使用批归一化层(batch normalization layers)通常可以提高深度神经 络的泛化能力和收敛速度。关于深度神经 络早期训练阶段的研究是解决 DNN 优化和泛化能力之间联系的有效途径。例如,在训练的早期阶段引入正则化处理是实现良好泛化能力的必要条件。

2.2 损益平衡点和关于 SGD 轨迹的两个猜想

首先,定义样本 (x,y) 的损失为 L(x,y; θ),其中θ为 D 维参数向量。训练损失的 Hessian 矩阵记为 H,梯度协方差矩阵记为:

其中,g_i 表示梯度,g 为全批次梯度。

可以令

如果下列序列的范数在τ趋向于无穷大时不收敛,则称 SGD 沿(e_H)^1 是不稳定的:

其中,ψ(0)=θ(t)。序列ψ(t)表征每一步骤 t’>t 映射到(e_H)^1 中的优化策略。

1. 投影到(e_H)^1 的损失面是一个二次一维函数。

2. 特征向量(e_H)^1 和(e_K)^1 是共线的。

3. 如果沿(e_H)^1 优化在下一步会出现下降,则沿(e_H)^1 方向距离最小值的距离值在下一步会增大。

4. H 的谱范数(λ_H)^1 在训练阶段增大,沿(e_H)^1 方向距离最小值的距离值减小,如果不满足,则增大(λ_H)^1 会导致进入一个特定区域,该区域中沿(e_H)^1 方向的训练是不稳定的。

给定η_1 和 η_2 对应的优化轨迹,η_1 > η_2,二者从相同的θ_0 初始化。根据假设 1,沿 (e_H)^1(t) 的损失面为:

可以证明,在任何迭代 t,SGD 沿 (e_H)^1(t) 稳定的必要和充分条件是

根据假设 3 可知,(λ_H)^1(t)和 (λ_K)^1(t) 随时间增大。当 S=N,损益平衡点为(λ_H)^1(t)=2/η。由假设 4 可知,在通过训练轨迹上的损益平衡点后,SGD 不会进入(λ_H)^1 或(λ_K)^1 大于损益平衡点的区域,否则会导致上式左半部分中的一个项增加,从而沿(e_H)^1 失去稳定性。

猜想 1(SGD 的方差减少效应)。沿着 SGD 的轨迹,在较大的学习率或较小的批处理规模下,(λ_H)^1 和(λ_K)^1 的最大值较小。

猜想 2(SGD 的预处理效果)。沿着 SGD 的轨迹,学习率越大或批越小,则有 ((λ_H)^*)/((λ_H)^1) 和((λ_K)^*)/((λ_K)^1)的最大值就越大,其中λ_K * 和λ_H * 分别是 K 和 H 的最小非零特征值。此外,对于较大的学习率或较小的批规模,Tr(K)和 Tr(H)的最大值也较小。

2.3 实验分析

图 7. 在不同的训练迭代中,H 的谱范数(左)和ΔL(在两个连续步骤之间计算的训练损失的差异,右)与(λ_K)^1 的对比。用 SimpleCNN 在 CIFAR-10 数据库上进行实验,有两种不同的学习率(颜色不同)

图 8. SGD 的方差减少和预处理效果。与较大的学习率(η)或较小的批大小(S)相对应的优化轨迹的特点是较低的最大(λ_K)^1(梯度协方差的谱范数)和较大的最大((λ_K)^*)/((λ_K)^1)(梯度协方差的条件数)。垂直线标志着训练准确度大于(第一次)手动挑选的阈值的 epoch,这说明这些影响不是由训练速度的差异所解释的。

图 9. Variance 减少和 SGD 的预调效果

图 10. 改变学习率对各种指标的影响,SimpleCNN 有和没有批规一化层(SimpleCNN-BN 和 SimpleCNN)

3 神经 络早期学习动力学的简单性 [4]

3.1 两层神经 络

考虑一个有 m 个隐藏神经元的两层全连接神经 络,定义为:

(1)

其中,x 为输入,W 为第一层的权重矩阵,v 为第二层的权重向量,φ为激活函数。令 {(x_i,y_i)} 表征 n 个训练样本,x_i 为输入,y_i 为对应的输出。X 为数据矩阵,y 为对应的标签向量。考虑 L_2 训练损失如下:

(2)

从随机初始化开始对目标公式(2)运行梯度下降(Gradient descent, GD)处理。具体来说,对权重(W, v)进行以下对称初始化处理:

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2021年7月2日
下一篇 2021年7月2日

相关推荐