CVPR 提前看：视觉常识的最新研究进展

机器之心分析师络

2020 年 CVPR 将于 6 月 13 日至 19 日在西雅图举行。今年的 CVPR 有 6656 篇有效投稿，最终录用的文章为 1470 篇，接收率为 22%。作为计算机视觉三大顶会之一，CVPR 今年的论文方向依然为目标检测、目标跟踪、图像分割、人脸识别、姿态估计等等。CVPR 是老牌的视觉、图像和模式识别等研究方向的顶会，本篇提前看中，让我们在人工智能、深度学习热潮的冲击下，一起关注一下视觉常识的最新研究进展。

具体的，我们关注下面四篇文章：

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

2、ClusterFit: Improving Generalization of Visual Representations

3、Learning Representations by Predicting Bags of Visual Words

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

论文链接：
https://arxiv.org/abs/1912.05699

IGAM 的核心思想是：训练一个具有对抗性目标的学生模型（student model）以愚弄鉴别器，使得鉴别器将学生模型的输入梯度视为来自一个鲁棒的教师模型（teacher model）的输入梯度。为了在不同的任务之间迁移，教师模型的逻辑层首先对目标任务进行简单微调，随后，在极大极小博弈中，冻结教师模型的权重，使用单独的鉴别器训练学生模型，以便学生模型和教师模型的输入梯度具有语义相似性。IGAM 的训练包括两个阶段：1）在目标任务上微调鲁棒的教师模型；2）在学生模型训练过程中，对抗正则化输入梯度。

图 1. CIFAR-10 图像非鲁棒模型（中间）和鲁棒模型（右）的输入梯度

首先，根据目标任务微调教师模型 f_t 的权重。将模型权重参数化为Ψ，微调阶段使用交叉熵损失训练模型：

我们使用微调的结果替换模型中的最终逻辑层，除逻辑层外冻结教师模型 f_t 的所有权重。将逻辑层前的所有被冻结权重表示为Ψ.^+，替换后新的逻辑层表示为Ψ_logit，得到教师模型的微调目标函数为:

在对目标任务的逻辑层进行微调之后，教师模型的所有参数（Ψ）都固定不变。

其次，下一步我们在学生模型的训练过程中进行输入梯度匹配：在目标任务数据集 D_target 上表征学生模型 f_s 的分类交叉熵损失为：

通过梯度反向传播，得到学生模型 f_s 的输入梯度为：

相应地，教师模型 f_t 的输入梯度为：

参考 GAN（包含生成器和鉴别器模型的框架）的思想，为了使学生模型的输入梯度与教师模型的输入梯度相似，定义对抗正则化损失函数如下：

同时考虑在目标任务数据集 D_target 上表征学生模型 f_s 的分类交叉熵损失函数 L_θ,xent，可以通过快速梯度下降（SGD）来优化，以近似得到如下的最佳参数：

鉴别器通过最大化对抗损失项来学习正确地区分输入梯度。将 f_disc 参数化表示为φ，同样使用 SGD 训练鉴别器：

最终得到完整的学生模型 f_s 的训练目标函数为：

IGAM 的完整训练过程如图 2：

图 2. 输入梯度对抗匹配的训练过程

以及，代码如下：

随后，可以计算教师模型的交叉熵损失如下：

由于仿射函数是连续可微的，可以通过反推得到输入梯度：

图 3 给出了令图像与教师模型输入维度的匹配转换的三个示例，分别为图像缩放、图像切割和图像填充。

图 3. 令图像与教师模型输入维度的匹配转换的示例

实验分析

图 4. 不同模型的输入梯度

表 1. 迁移无噪和对抗性 CIFAR-10 测试样本的准确度

表 2. CIFAR-100 测试样本的准确度

图 5. Tiny-ImageNet 测试样本的准确度

小结

2、ClusterFit: Improving Generalization of Visual Representations

论文链接：
https://arxiv.org/abs/1912.03330

图 1. 完整的 ClusterFit（CF）流程

CF 框架介绍

CF 主要包括两步骤的工作，第一步，Cluster，给定一个使用代理目标函数和新数据集进行训练的络，利用学习到的特征空间对该数据集进行聚类。第二步，Fit，使用聚类作为伪标签在这个新数据集上从头开始训练一个新络，见图 2。

图 2. ClusterFit (CF) 结构

首先得到一个在数据库 Dpre 和标签 Lpre 中预训练的神经络 Npre。使用 Npre 的预处理层从另一个数据库 Dcf 的数据中提取特征。接下来，使用 k-means 将这些特性聚集到 K 组中，并给这些聚类分配新分类「标签」（Lcf）。最后，基于 Dcf 利用交叉熵损失函数得到另一个络 Ncf。

图 3. 控制实验

实验分析

在 11 个公开的、具有挑战性的图像和视频基准数据集上，ClusterFit 显示出显著的性能提升，具体见表 1。ClusterFit（CF）适用于各种不同的预训练方法、模式和结构。

表 1. 实验结果汇总

图 4. Npre、Ncf 的选择影响

图 5. Npre 中标签数量的影响

小结

3、Learning Representations by Predicting Bags of Visual Words

论文链接：
https://arxiv.org/abs/2002.12247

自监督表征学习使用图像中的可用信息（例如，预测两个图像块的相对位置）定义的无标注预文本（unlabeled pretext）训练卷积神经络（convnet），通过这样一个基于预文本的预训练，使得 convnet 能够学习到对一些视觉任务有用的表示，例如图像分类或对象检测等任务所需的表示。

一个值得探讨的问题是，究竟哪种自监督是有效的？

类似的，在自然语言处理（NLP）中，自监督方法在学习语言表示方面获得了巨大的成功，如 BERT 预测句子中的缺失单词等。NLP 与计算机视觉的不同之处在于：（1）与图像像素相比，文字能够表征更多的高级语义概念，（2）文字是在离散空间中定义的，而图像是在连续空间中定义的，这就导致对图像像素的小扰动虽然不会改变图像描绘的内容，但是却会显著的影响图像重建任务的效果。

图 1. 视觉词袋预测学习表示

给定一个训练图像 x，第一步，使用预先训练的 convnet 创建一个基于空间密集视觉词的描述 q（x）。利用 k-均值算法将 K 个聚类应用于从数据集中提取的一组特征图，通过优化以下目标，学习视觉词汇的嵌入特征：

令Φ^(x) 表示输入图像 x 的特征图，Φ^u(x) 表示对应第 u 个位置的特征向量，对于每个位置 u，将相应的特征向量Φ^u(x) 赋给其最近的（以平方欧式距离为单位）视觉词嵌入 q^u（x）：

第二步，创建图像 x 的离散表示 q(x) 的 BoW 表示：y(x)。可以采用两种表示形式：

y(x) 是一个 k 维向量，其中第 k 个元素 y_k(x) 编码第 k 个视觉词在图像 x 中出现的次数。结果 y(x) 可以被看作是图像 x 的第 K 个视觉词的软分类标签。K 值可能较大，因此 BoW 表示 y(x) 是相当稀疏的。

定义一个预测层Ω（·），该预测层以Φ（x?）作为输入，输出 BoW 中的 K 个视觉词的 K 维 softmax 分布。该预测层通过 liner-plus-softmax 层实现：

其中，W = [w_1,· · · ,w_K] 是线性层的 K 个 c 维权重向量（每个视觉词一个）。为了学习 convnet 模型，最小化预测的 softmax 分布Ω（Φ（x?））和 BoW 分布 y（x）之间的期望交叉熵损失：

其中，loss(α, β) 为交叉熵损失。

实验分析

表 1. CIFAR-100 线性分类及少样本测试结果，其中，Φ?（·）采用 WRN-28-10 架构实现

表 2. Mini-ImageNet-100 线性分类及少样本测试结果，其中，Φ?（·）采用 WRN-28-10 架构实现

表 1 和表 2 给出了 CIFAR-100 和 Mini-ImageNet 库上的结果。通过比较 BoWNet 和 RotNet（用于构建 BoWNet）的性能，实验结果显示 BoWNet 将所有的评估指标至少提高了 10 个百分点，迭代使用 BoWNet（BoWNet×2 和 BoWNet×3）能够进一步提高分类任务的准确度（除了 one-shot 的情况）。此外，在表 1 给出的 CIFAR100 线性分类任务的结果数据中，BoWNet 性能大大优于最近提出的 AMDIM。在表 2 给出的 Mini-ImageNet 库的分类任务结果数据中，BoWNet 的性能与有监督 CC 模型的性能非常接近。

表 3. ResNet-50 线性支持向量机的 VOC07 图像分类结果

在 VOC07 库中使用 Goyal 等人提供的公开代码对自监督方法进行基准测试，在冻结学习表示的基础上训练线性 SVM，其中，使用 VOC07 训练+验证数据子集进行训练，使用 VOC07 测试子集进行测试。实验中考虑了第三（conv4）和第四（conv5）残余分块的特征，结果见表 3。表 3 中的实验数据显示，BoWNet 优于所有先前的方法。

表 4. ImageNet 和 Places205 中线性分类准确度（使用 ResNet-50 结构）

表 5. V0C07+12 的目标检测任务结果（使用快速 R-CNN 微调结构）

小结

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

论文链接：

https://arxiv.org/pdf/1912.13200

图 1. AdderNets 和 CNNs 中特征的可视化

模型介绍

给定一个深度神经络的中间层，考虑一个滤波器 F，其中核大小为 d，输入通道为 c_in，输出通道为 c_out。输入特征定义为 X，令 H 和 W 分别为特征的高度和宽度，输出特征 Y 表示滤波器和输入特征之间的相似性，得到公式：

经典 CNN 中，作为输入特征映射中的值的加权和，卷积滤波器的输出可以是正的或负的，但是加法器滤波器的输出总是负的。因此，引入批量归一化将加法器的输出层规范化到一个适当的范围内，然后在所提出的加法器中使用经典 CNN 中使用的所有激活函数。尽管在批量规范化层中涉及乘法运算，但其计算成本明显低于卷积层，可以省略。

模型训练

神经络利用 BP 反向传播计算滤波器的梯度，利用随机梯度下降更新参数。在经典 CNN 中，输出特性 Y 相对于滤波器 F 的偏导数计算为：

其中，i∈[m,m+d]，j∈[n,n+d]。在 AdderNet 中，输出特性 Y 相对于滤波器 F 的偏导数计算为：

其中，HT（·）表示 HardTanh 函数：

自适应学习速率尺度

经典 CNN 中，假设权值和输入特征是独立的，并且在正态分布下分布一致，则输出方差可以粗略估计为：

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

CVPR 提前看：视觉常识的最新研究进展

相关推荐