CVPR 提前看:视觉常识的最新研究进展

机器之心分析师 络

2020 年 CVPR 将于 6 月 13 日至 19 日在西雅图举行。今年的 CVPR 有 6656 篇有效投稿,最终录用的文章为 1470 篇,接收率为 22%。作为计算机视觉三大顶会之一,CVPR 今年的论文方向依然为目标检测、目标跟踪、图像分割、人脸识别、姿态估计等等。CVPR 是老牌的视觉、图像和模式识别等研究方向的顶会,本篇提前看中,让我们在人工智能、深度学习热潮的冲击下,一起关注一下视觉常识的最新研究进展。

具体的,我们关注下面四篇文章:

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

2、ClusterFit: Improving Generalization of Visual Representations

3、Learning Representations by Predicting Bags of Visual Words

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

论文链接:
https://arxiv.org/abs/1912.05699

IGAM 的核心思想是:训练一个具有对抗性目标的学生模型(student model)以愚弄鉴别器,使得鉴别器将学生模型的输入梯度视为来自一个鲁棒的教师模型(teacher model)的输入梯度。为了在不同的任务之间迁移,教师模型的逻辑层首先对目标任务进行简单微调,随后,在极大极小博弈中,冻结教师模型的权重,使用单独的鉴别器训练学生模型,以便学生模型和教师模型的输入梯度具有语义相似性。IGAM 的训练包括两个阶段:1)在目标任务上微调鲁棒的教师模型;2)在学生模型训练过程中,对抗正则化输入梯度。

图 1. CIFAR-10 图像非鲁棒模型(中间)和鲁棒模型(右)的输入梯度

首先,根据目标任务微调教师模型 f_t 的权重。将模型权重参数化为Ψ,微调阶段使用交叉熵损失训练模型:

我们使用微调的结果替换模型中的最终逻辑层,除逻辑层外冻结教师模型 f_t 的所有权重。将逻辑层前的所有被冻结权重表示为Ψ.^+,替换后新的逻辑层表示为Ψ_logit,得到教师模型的微调目标函数为:

在对目标任务的逻辑层进行微调之后,教师模型的所有参数(Ψ)都固定不变。

其次,下一步我们在学生模型的训练过程中进行输入梯度匹配:在目标任务数据集 D_target 上表征学生模型 f_s 的分类交叉熵损失为:

通过梯度反向传播,得到学生模型 f_s 的输入梯度为:

相应地,教师模型 f_t 的输入梯度为:

参考 GAN(包含生成器和鉴别器模型的框架)的思想,为了使学生模型的输入梯度与教师模型的输入梯度相似,定义对抗正则化损失函数如下:

同时考虑在目标任务数据集 D_target 上表征学生模型 f_s 的分类交叉熵损失函数 L_θ,xent,可以通过快速梯度下降(SGD)来优化,以近似得到如下的最佳参数:

鉴别器通过最大化对抗损失项来学习正确地区分输入梯度。将 f_disc 参数化表示为φ,同样使用 SGD 训练鉴别器:

最终得到完整的学生模型 f_s 的训练目标函数为:

IGAM 的完整训练过程如图 2:

图 2. 输入梯度对抗匹配的训练过程

以及,代码如下:

随后,可以计算教师模型的交叉熵损失如下:

由于仿射函数是连续可微的,可以通过反推得到输入梯度:

图 3 给出了令图像与教师模型输入维度的匹配转换的三个示例,分别为图像缩放、图像切割和图像填充。

图 3. 令图像与教师模型输入维度的匹配转换的示例

实验分析

图 4. 不同模型的输入梯度

表 1. 迁移无噪和对抗性 CIFAR-10 测试样本的准确度

表 2. CIFAR-100 测试样本的准确度

图 5. Tiny-ImageNet 测试样本的准确度

小结

2、ClusterFit: Improving Generalization of Visual Representations

论文链接:
https://arxiv.org/abs/1912.03330

图 1. 完整的 ClusterFit(CF)流程

CF 框架介绍

CF 主要包括两步骤的工作,第一步,Cluster,给定一个使用代理目标函数和新数据集进行训练的 络,利用学习到的特征空间对该数据集进行聚类。第二步,Fit,使用聚类作为伪标签在这个新数据集上从头开始训练一个新 络,见图 2。

图 2. ClusterFit (CF) 结构

首先得到一个在数据库 Dpre 和标签 Lpre 中预训练的神经 络 Npre。使用 Npre 的预处理层从另一个数据库 Dcf 的数据中提取特征。接下来,使用 k-means 将这些特性聚集到 K 组中,并给这些聚类分配新分类「标签」(Lcf)。最后,基于 Dcf 利用交叉熵损失函数得到另一个 络 Ncf。

图 3. 控制实验

实验分析

在 11 个公开的、具有挑战性的图像和视频基准数据集上,ClusterFit 显示出显著的性能提升,具体见表 1。ClusterFit(CF)适用于各种不同的预训练方法、模式和结构。

表 1. 实验结果汇总

图 4. Npre、Ncf 的选择影响

图 5. Npre 中标签数量的影响

小结

3、Learning Representations by Predicting Bags of Visual Words

论文链接:
https://arxiv.org/abs/2002.12247

自监督表征学习使用图像中的可用信息(例如,预测两个图像块的相对位置)定义的无标注预文本(unlabeled pretext)训练卷积神经 络(convnet),通过这样一个基于预文本的预训练,使得 convnet 能够学习到对一些视觉任务有用的表示,例如图像分类或对象检测等任务所需的表示。

一个值得探讨的问题是,究竟哪种自监督是有效的?

类似的,在自然语言处理(NLP)中,自监督方法在学习语言表示方面获得了巨大的成功,如 BERT 预测句子中的缺失单词等。NLP 与计算机视觉的不同之处在于:(1)与图像像素相比,文字能够表征更多的高级语义概念,(2)文字是在离散空间中定义的,而图像是在连续空间中定义的,这就导致对图像像素的小扰动虽然不会改变图像描绘的内容,但是却会显著的影响图像重建任务的效果。

图 1. 视觉词袋预测学习表示

给定一个训练图像 x,第一步,使用预先训练的 convnet 创建一个基于空间密集视觉词的描述 q(x)。利用 k-均值算法将 K 个聚类应用于从数据集中提取的一组特征图,通过优化以下目标,学习视觉词汇的嵌入特征:

令Φ^(x) 表示输入图像 x 的特征图,Φ^u(x) 表示对应第 u 个位置的特征向量,对于每个位置 u,将相应的特征向量Φ^u(x) 赋给其最近的(以平方欧式距离为单位)视觉词嵌入 q^u(x):

第二步,创建图像 x 的离散表示 q(x) 的 BoW 表示:y(x)。可以采用两种表示形式:

y(x) 是一个 k 维向量,其中第 k 个元素 y_k(x) 编码第 k 个视觉词在图像 x 中出现的次数。结果 y(x) 可以被看作是图像 x 的第 K 个视觉词的软分类标签。K 值可能较大,因此 BoW 表示 y(x) 是相当稀疏的。

定义一个预测层Ω(·),该预测层以Φ(x?)作为输入,输出 BoW 中的 K 个视觉词的 K 维 softmax 分布。该预测层通过 liner-plus-softmax 层实现:

其中,W = [w_1,· · · ,w_K] 是线性层的 K 个 c 维权重向量(每个视觉词一个)。为了学习 convnet 模型,最小化预测的 softmax 分布Ω(Φ(x?))和 BoW 分布 y(x)之间的期望交叉熵损失:

其中,loss(α, β) 为交叉熵损失。

实验分析

表 1. CIFAR-100 线性分类及少样本测试结果,其中,Φ?(·)采用 WRN-28-10 架构实现

表 2. Mini-ImageNet-100 线性分类及少样本测试结果,其中,Φ?(·)采用 WRN-28-10 架构实现

表 1 和表 2 给出了 CIFAR-100 和 Mini-ImageNet 库上的结果。通过比较 BoWNet 和 RotNet(用于构建 BoWNet)的性能,实验结果显示 BoWNet 将所有的评估指标至少提高了 10 个百分点,迭代使用 BoWNet(BoWNet×2 和 BoWNet×3)能够进一步提高分类任务的准确度(除了 one-shot 的情况)。此外,在表 1 给出的 CIFAR100 线性分类任务的结果数据中,BoWNet 性能大大优于最近提出的 AMDIM。在表 2 给出的 Mini-ImageNet 库的分类任务结果数据中,BoWNet 的性能与有监督 CC 模型的性能非常接近。

表 3. ResNet-50 线性支持向量机的 VOC07 图像分类结果

在 VOC07 库中使用 Goyal 等人提供的公开代码对自监督方法进行基准测试,在冻结学习表示的基础上训练线性 SVM,其中,使用 VOC07 训练+验证数据子集进行训练,使用 VOC07 测试子集进行测试。实验中考虑了第三(conv4)和第四(conv5)残余分块的特征,结果见表 3。表 3 中的实验数据显示,BoWNet 优于所有先前的方法。

表 4. ImageNet 和 Places205 中线性分类准确度(使用 ResNet-50 结构)

表 5. V0C07+12 的目标检测任务结果(使用快速 R-CNN 微调结构)

小结

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

论文链接:

https://arxiv.org/pdf/1912.13200

图 1. AdderNets 和 CNNs 中特征的可视化

模型介绍

给定一个深度神经 络的中间层,考虑一个滤波器 F,其中核大小为 d,输入通道为 c_in,输出通道为 c_out。输入特征定义为 X,令 H 和 W 分别为特征的高度和宽度,输出特征 Y 表示滤波器和输入特征之间的相似性,得到公式:

经典 CNN 中,作为输入特征映射中的值的加权和,卷积滤波器的输出可以是正的或负的,但是加法器滤波器的输出总是负的。因此,引入批量归一化将加法器的输出层规范化到一个适当的范围内,然后在所提出的加法器中使用经典 CNN 中使用的所有激活函数。尽管在批量规范化层中涉及乘法运算,但其计算成本明显低于卷积层,可以省略。

模型训练

神经 络利用 BP 反向传播计算滤波器的梯度,利用随机梯度下降更新参数。在经典 CNN 中,输出特性 Y 相对于滤波器 F 的偏导数计算为:

其中,i∈[m,m+d],j∈[n,n+d]。在 AdderNet 中,输出特性 Y 相对于滤波器 F 的偏导数计算为:

其中,HT(·)表示 HardTanh 函数:

自适应学习速率尺度

经典 CNN 中,假设权值和输入特征是独立的,并且在正态分布下分布一致,则输出方差可以粗略估计为:

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2020年4月7日
下一篇 2020年4月7日

相关推荐