编者按:国际计算机视觉与模式识别会议(CVPR)是人工智能领域最具学术影响力的顶级会议之一。微软亚洲研究院也在4月成功举办了 CVPR 2022 论文分享会。今天,我们为大家精选了8篇微软亚洲研究院被 CVPR 2022 收录的优秀论文,带你探索计算机视觉领域的热点前沿!欢迎感兴趣的读者阅读论文原文。
01
基于神经压缩的视频复原
论文链接:
https://arxiv.org/abs/2203.09208
视频复原任务非常依赖时序特征来获得更好的重建质量。现有的视频复原方法主要关注如何设计更好的 络结构去提取时序特征,例如双向传播。至于如何有效使用时序特征并和当前帧融合,通常容易被忽视。实际上时序特征通常包含大量噪声和不相关的信息,直接使用而不经过任何特征提纯,反而会干扰当前帧的复原。
02
基于神经辐射流形的三维可控图像生成
论文链接:https://yudeng.github.io/GRAM/
传统的生成对抗 络(GAN)已经具备生成以假乱真二维图像的能力。但它们并不考虑生成图像中物体背后的三维几何性质,因此无法生成物体的多视角图像。近两年,一些能够实现三维视角控制的生成对抗 络逐渐出现。给定一类物体的单视角图像集作为训练数据,这些方法可以利用图像上的对抗学习过程生成物体的多视角图像。实现这一点的关键因素是将物体的三维表达与图像生成过程相结合,其中最先进的方法利用了神经辐射场(NeRF)作为物体表达。
然而,已有的、基于 NeRF 的生成对抗 络的图像生成质量与传统的二维图像生成对抗 络仍有较大的差距。研究员们观察到,造成这一问题的一个重要原因是 NeRF 的体渲染过程与对抗学习过程相结合时内存开销较大,限制了体渲染时每条光线允许的采样点个数。在采样点数量有限时,NeRF 表征不能有效的处理物体的精细几何纹理,且其渲染图像中含有明显的噪声图案,严重影响了对抗学习过程的稳定性。
图2:基于神经辐射流形的图像生成过程示意图
03
StyleSwin – 用Transformer搭建适于高质量图像生成的的生成对抗 络
论文链接:https://www.microsoft.com/en-us/research/publication/styleswin-Transformer-based-gan-for-high-resolution-image-generation/
以生成对抗 络为代表的图像生成模型在过去几年间取得了巨大发展。其早期的研究主要集中在让对抗训练更加稳定,而近年来生成质量的突破则主要受益于更具表达能力的 络的提出,如引入注意力机制、采用更大的 络以及 Style-based 生成器。
近期,Transformer 获得了极大的关注,并在一系列判别任务中取得巨大成功。受此启发,微软亚洲研究院的研究员们尝试探究 Transformer 的一系列优异特性,尤其是长距离建模能力,是否对生成任务也有帮助。而构建基于 Transformer 的生成器 络,就需要克服在高分辨率图像生成时计算复杂度过高的问题。为此研究员们采用了微软亚洲研究院提出的 Swin Transformer 作为基本模块,以在计算复杂度和模型表达能力间取得良好的平衡。
研究员们还进一步提出了若干改进,使得 Swin Transformer 可以更好的适配图像生成任务。首先,整个生成器采用了 Style-based 结构,并探究若干种适于 Transformer 模块的风格注入机制。其次,研究员们提出用 double attention 来代替 Swin Transformer 中的重叠窗口,使得每一层 Transformer 模块有更大的注意力范围。此外,研究员们指出对于生成模型,有必要同时采用相对位置编码和绝对位置编码。
图3:(左)StyleSwin 络结构,(右)256×256生成结果稳定超越 StyleGAN
更重要的,研究员们发现局部窗口内计算注意力会有产生类似于 DCT 压缩时的块状瑕疵(blocking artifact),这个问题仅在生成任务中才会被注意到。为此,研究员们提出了基于小波变换的判别器模型在频域空间识别这种块状瑕疵的方法,有效提升了肉眼感知下的生成质量。
04
基于量化去噪扩散模型的图像到文本生成
论文链接:https://arxiv.org/abs/2111.14822
图4:VQ-Diffusion 的算法流程图
05
基于多模态迁移学习的手语翻译模型
论文链接:https://arxiv.org/abs/2203.04287
图5:研究员们将手语翻译拆分成为视觉任务(左侧)和语言任务(右侧),并用一个视觉-语言映射器(V-L Mapper)来连接两个任务,之后分别对视觉和语言 络在大规模数据上进行预训练,实现迁移学习,最后对整个模型进行联合训练。
06
重新思考对比学习中的最小充分表示
论文链接:https://arxiv.org/abs/2203.07004
作为一种自监督学习方法,对比学习近年来被当作预训练的主要方法广泛应用于视频和图像领域。由于对比学习使用数据的不同“视角”互相监督,学习到的数据表示往往只包含“视角”之间的的共享信息,而排斥它们的非共享信息。换言之,对比学习最终的结果是学习到了不同“视角”之间的最小充分表示。这样就产生了一个疑问——被排斥掉的非共享信息是不是包含对下游任务有贡献的内容?由于“视角”的产生高度依赖增强方法,而下游任务相关的信息在预训练阶段往往是缺失的,所以从直观上看这种可能性的确存在。
通过从信息论方面进行严谨的推理证明和实验验证,微软亚洲研究院的研究员们发现最小充分表示排斥的非共享信息中确实包含下游任务相关的有用信息,从而揭示了对比学习有过拟到“视角”共享信息的风险。这种风险会严重降低预训练模型的通用性和在下游任务上的性能。为此,研究员们认为对比学习应该学习“视角”之间的充分表示而不是最小充分表示,并且提出了一种简单有效而且通用的方法:增加对比学习中“视角”之间的互信息。简单来说,就是在学习“视角”共享信息的同时,也尽可能学习下游任务相关的非共享信息。在此基础上,研究员们提出了两种通用的预训练策略,一种是通过重构输入数据引入更多的原始输入信息达到增加非共享信息的目的;另一种是通过加入正则项计算互信息的下限来直接提高互信。大量的实验结果表明,我们提出的预训练策略在分类,检测和分割等一系列下游任务中都极大地提高了精度。
图6:对比学习中充分表示和最小充分表示的信息分布图
07
SimMIM:一个简单的图像掩码建模框架
论文链接:https://arxiv.org/abs/2111.09886
代码地址:https://github.com/microsoft/SimMIM
掩码信号建模(Masked Signal Modeling)是一种通过利用部分可见信息来预测不可见信息的预训练方法。其在自然语言处理(NLP)领域中的应用——掩码语言建模(Masked Language Modeling, MLM)已经成为了 NLP 领域中最具代表性且应用最广泛的预训练方法。
图7:SimMIM 使用简单的随机掩码策略和一个轻量的单层线性解码器来重构图像的原始信号,并使用简单的 l1 损失函数进行预训练。
SimMIM 可以适配任意的基础 络,包括 ViT,Swin 以及 ConvNets。如图8(左)所示,在使用 ViT-B 时,SimMIM 取得了比其他方法更好的微调性能,同时花费的训练成本更低。
图8:(左)SimMIM 与其他方法在使用 ViT-B 时的性能比较。(右)SimMIM 在使用 Swin 时与有监督预训练(Supervised Pre-training)的比较。
图8(右)则展示了 SimMIM 在使用 Swin 时取得了比有监督预训练(Supervised pre-training)更好的性能,并且模型越大,SimMIM 的优势就越明显,这说明 SimMIM 是一个良好的模型扩展学习器(model scalable learner)。通过使用 SimMIM,具有3B参数量的 Swin-G 可以在 ImageNet-1K 图像分类任务中取得90.2%的 Top-1 Acc。
SimMIM 不仅适用于基于 Transformer 的 络,其对 ConvNets 也同样有效。ResNet-50×4 使用 SimMIM 可以取得81.6%的 Top-1 Acc,高于有监督预训练获得的80.7%的结果。这些实验证明了 SimMIM 的广泛适用性。
08
学习轨迹感知Transformer的视频超分辨率 络
论文链接:https://arxiv.org/abs/2204.04216
代码链接:https://github.com/researchmm/TTVSR
视频超分辨率(VSR)旨在从低分辨率(LR)的对应帧中恢复高分辨率(HR)的视频帧。尽管如今视频超分辨率领域已经取得了一定的进展,但是在如何有效利用整个视频的时间信息方面仍然存在着巨大的挑战。现有的方法通常通过对齐和聚合短距离相邻帧(如5或7帧)的信息来生成高分辨率的帧,所以无法获得令人满意的结果。
图9:基于轨迹感知的视频超分辨率 Transformer 的 络结构图
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!