使用面向任务流程的增强视频

引用

Xue, Tianfan and Chen, Baian and Wu, Jiajun and Wei, Donglai and Freeman, William T, “Video Enhancement with Task-Oriented Flow”, International Journal of Computer Vision (IJCV),vol.127, n0.8, pp.1106–1125, 2019.

摘要

1、引言

运动估计是视频处理任务的关键组成部分，如时间帧插值，视频去噪和视频超分辨率。大多数基于运动的视频处理算法使用两步法：首先估计输入帧之间的运动以进行帧配准，然后对配准的帧进行处理以生成最终输出。因此，流量估计的准确性极大地影响两步法的性能。

对于许多视频增强任务而言，精确的流量估计可能具有挑战性且速度缓慢。许多运动估计算法所依赖的亮度恒定假设可能会由于光照和姿势的变化以及运动模糊和遮挡的存在而失败。此外，许多运动估计算法涉及解决大规模优化问题，使其对于实时应用程序效率低下。

此外，对于视频处理来说，求解匹配运动中物体的运动场可能不是最优的。图 1 显示了帧插值的一个例子。EpicFlow (Revaud et al 2015)是最先进的运动估计算法之一，计算精确的运动场(I-b)，其边界与图像中的手指对齐(I-c)；然而，基于它的插值帧(I-c)仍然包含明显的遮挡效应。这是因为 EpicFlow 只匹配两帧之间的可见部分；然而，对于插值，我们也需要被遮挡的区域，这是 EpicFlow 无法实现的。相比之下，我们将介绍的任务导向流，学习很好地处理遮挡(I-e)，尽管它估计的运动场(I-d)不同于地面实况光流。同样，在视频去噪中，EpicFlow 只能估计女孩头发的运动(II-b)，但我们的任务导向流(II-d)可以去除输入中的噪声。因此，我们去噪的帧比 EpicFlow (II-e)去噪的帧要干净得多。对于特定的视频处理任务，存在与实际物体运动不匹配的运动表示，但会产生更好的结果。

图 1：许多视频处理任务，例如时间帧插值（顶部）和视频去噪（底部），都依赖于流量估计。然而，在许多情况下，精确的光流估计是难以处理的，对于特定任务可能不是最理想的。例如，虽然 EpicFlow (Revaud et al 2015) 预测了物体的精确运动（Ib，流场与物体边界很好地对齐），但估计流场中的小误差会导致内插帧中的明显伪影，如 (Ic）。使用本工作中提出的面向任务的流程（I-d），那些插值伪像消失了（I-e）。类似地，在视频去噪中，我们的面向任务的流程 (II-d) 偏离了 EpicFlow (II-b)，但会产生更清晰的输出帧 (II-e)。流量可视化基于 (I-b) 角上显示的色轮。

为评估 TOFlow，我们构建一个用于视频处理的大规模、高质量的视频数据集。大多数现有的大型视频数据集，例如 Youtube-8M (Abu-El-Haija et al 2016)，都是为事件分类等高级视觉任务而设计的。视频的分辨率通常较低，运动模糊明显，这使得它们对视频处理的用处不大。我们引入新的数据集 Vimeo-90K，用于对视频处理算法进行系统评估。Vimeo-90K 包含 89,800 个从 Vimeo 下载的高质量视频剪辑（即 720p 或更高）。我们从这些视频中分别构建了三个基准用于插值、去噪或去块以及超分辨率。

2、相关工作

光流估计。追溯 Horn 和 Schunck（1981），大多数光流算法都试图最小化手工制作的能量项，以实现图像对齐和流平滑（Memin 和 Perez 1998；Brox 等 2004，2009；Wedel 等 2009）。当前最先进的方法，如 EpicFlow (Revaud et al 2015) 或 DC Flow (Xu et al 2017) 进一步利用图像边界和片段线索来改进稀疏匹配之间的流插值。最近，端到端的深度学习方法被提出用于更快的推理。我们使用与 SpyNet (Ranjan and Black 2017) 相同的络结构进行运动估计。但不是像 SpyNet 那样训练它以最小化流量估计误差，而是与视频处理络联合训练它以学习最适合特定任务的流表示。

低级视频处理。 我们专注于三个视频处理任务：帧插值、视频去噪和视频超分辨率。这些领域中的大多数现有算法明确估计输入帧之间的密集对应关系，然后根据用于帧插值的图像形成模型重建参考帧、视频超分辨率和去噪。

视频增强的深度学习。受深度学习成功的启发，研究人员直接将增强任务建模为回归问题，而不代表运动，并为帧插值设计深度络，超分辨率，去噪，去模糊；，雨滴去除，视频压缩伪影去除。

3、任务

时间帧插值。给定一个低帧率视频，一个时间帧插值算法通过在两个时间相邻帧之间合成附加帧来生成一个高帧率视频。具体地说，让 I1 和 I3 是一个输入视频中连续的两个帧，其任务是估计缺失的中间帧 I2。时间帧插值使视频帧率翻倍，并可以递归应用来产生更高的帧率。

视频去噪/去屏蔽。给定一个带有传感器或压缩伪影的降级视频，视频去噪/去阻塞的目的是消除噪声或压缩伪影，以恢复原始视频。这通常是通过聚合来自相邻帧的信息来实现的。具体地说，让{I1，I2，…在输入视频中是连续的降级帧，视频去噪的任务是估计中间帧 I? 参考。为了便于描述，在论文的其余部分中，我们只是简单地将这两个任务都称为视频去噪。

视频超分辨率。与视频去噪类似，给定 N 个连续的低分辨率帧作为输入，视频超分辨率的任务是恢复高分辨率的中间帧。在这项工作中，我们首先使用双比插值对所有输入帧的输出分辨率相同，我们的算法只需要恢复输出图像中的高频分量。

4、针对视频处理的面向任务的流程

大多数基于运动的视频处理算法都有两个步骤：运动估计和图像处理。例如，在时间帧插值中，大多数算法首先估计像素在输入帧（第 1 帧和第 3 帧）之间的移动方式，然后将像素移动到输出帧（第二帧）（Baker 等，2011）。类似地，在视频去噪中，算法首先根据估计的帧之间的运动场来注册不同的帧，然后通过聚合注册帧中的信息来去除噪声。

图 2：左图：我们的模型使用面向任务的流程进行视频处理。给定输入视频，我们首先通过面向任务的流估计络计算帧之间的运动。然后我们使用空间变换器络将输入帧扭曲到参考，并聚合扭曲的帧以生成高质量的输出图像。右图：流量估计络的详细结构（左图橙色络）。

4.1小样例

在讨论络结构的细节之前，首先从两个合成序列开始，以证明为什么 TOFlow 可以胜过传统的光流。图 3 的左侧显示了帧插值的示例，其中绿色三角形移动到黑色背景前的底部。如果我们将第一帧和第三帧都扭曲到第二帧，即使使用地面实况流（案例 I，左列），由于遮挡（案例 I，中间列，前两列），扭曲的帧中有明显的加倍伪影行），这是光流文献中的一个众所周知的问题（Baker 等人 2011）。基于这两个扭曲帧的最终插值结果仍然包含加倍伪影（案例 I，右列，顶行）。相比之下，TOFlow 不坚持对象运动：背景应该是静态的，但它具有非零运动（案例 II，左列）。然而，使用 TOFlow，扭曲的帧（案例 II，中栏）中几乎没有任何伪影，插值帧看起来很干净（案例 II，右栏）。这是因为 TOFlow 不仅合成了可见对象的运动，而且还指导如何通过从其邻域复制像素来修复被遮挡的背景区域。此外，如果地面实况遮挡遮罩可用，则使用地面实况流的插值结果也将包含很少的加倍伪影（案例 I，底行）。然而，计算地面遮挡掩码比估计流量更难，因为它还需要推断正确的深度排序。另一方面，TOFlow 可以比地面实况流更好地处理遮挡和合成帧，而无需使用地面实况遮挡掩码和深度排序信息。

同样，图 3 的右侧展示了一个视频去噪示例。输入帧中的随机小框是合成噪声。如果我们使用地面实况流将第一帧和第三帧扭曲到第二帧，噪声模式（随机方块）仍然存在，并且去噪后的帧仍然包含一些噪声（案例 I，右列。有一些框上的阴影底部）。但是如果我们使用 TOFlow（案例 II，左列）扭曲这两个帧，那些噪声模式也被减少或消除（案例 II，中列），并且基于它们的最终去噪帧几乎不含噪声，甚至比通过使用地面实况流和遮挡掩码对结果进行去噪得到的结果（案例 I，底行）。这也表明 TOFlow 学会了通过用相邻像素对输入帧进行修复来减少输入帧中的噪声，这是传统流无法做到的。

图 3:一个小样例，演示了面向任务的流程相对于传统的光流程的有效性。

4.2流量估算模块

流量估计模块计算输入帧之间的运动场。对于具有 N 帧的序列（N = 3 用于插值，N = 7 用于去噪和超分辨率），我们选择中间帧作为参考。流量估计模块由 N 1 个流量络组成，它们都具有相同的结构并共享相同的参数集。每个流络（图 2 中的橙色络）从序列和参考帧中获取一帧作为输入，并预测它们之间的运动。

我们使用 Ranjan 和 Black (2017)提出的多尺度运动估计框架来处理帧之间的大位移。络结构如图 2 右侧所示。络的输入是参考帧和另一个帧的高斯金字塔，而不是参考。在每个尺度上，子络都以该尺度的帧和来自先前预测的上采样运动场作为输入，并计算更准确的运动场。在流络中使用了 4 个子络，其中三个如图 2 所示（黄色络）。

帧插值有一个小的修改，其中参考帧（帧 2）不是络的输入，而是它应该合成的内容。为了解决这个问题，用于插值的运动估计模块由两个流络组成，都将第一帧和第三帧作为输入，并分别预测从第二帧到第一帧和第三帧的运动场。有了这些运动场，络的后面模块就可以将第一帧和第三帧转换为第二帧进行合成。

4.3图像变换模块

使用上一步中预测的运动场，图像转换模块将所有输入帧注册到参考帧。我们使用空间变换器络(Jaderberg et al 2015) (STN)进行配准，这是一个可微的双线性插值层，在变换后合成新帧。每个 STN 将一个输入帧变换到参考视点，所有 N?1 个 STN 构成图像变换模块。该模块的一个重要特性是它可以将梯度从图像处理模块反向传播到流估计模块，因此我们可以学习一种适应不同视频处理任务的流表示。

4.4图像处理模块

我们使用另一个卷积络作为图像处理模块来生成最终的输出。对于每个任务，我们都使用一个稍微不同的架构。详见本合同的附录。

扭曲帧中的遮挡区域。如第 4.1 节所述，遮挡通常会导致扭曲帧中的伪像加倍。解决这个问题的一个常见方法是在插值中屏蔽掉被遮挡的像素，例如，Liu et al (2017)提出使用一个额外的络来估计遮挡掩码，并且只使用未被遮挡的像素。

与 Liu et al (2017)类似，我们也尝试了掩码预测络。它将两个估计的运动场作为输入，一个从第 2 帧到第 1 帧，另一个从第 2 帧到第 3 帧（图 4 中的 v21 和 v23）。它预测了两个遮挡掩码：m21 是第 1 帧（I21）中扭曲帧 2 的掩码，m23 是第 3 帧（I23）中扭曲帧 2 的掩码。扭曲帧（I21 和 I23）中的无效区域通过将它们与相应的掩码相乘而被屏蔽掉。然后通过另一个卷积神经络计算中间帧，其中扭曲帧（I21 和 I23）和屏蔽扭曲帧（I’21 和 I’23）作为输入。详情请参阅附录。

图 4. 插值掩模络的结构

一个有趣的观察是，即使没有掩码预测络，我们的流量估计对遮挡也很稳健。如图 5 的第三列所示，使用 TOFlow 的扭曲帧几乎没有加倍伪影。因此，仅从没有学习掩码的两个扭曲帧中，络合成了一个不错的中间帧（最右边一列的顶部图像）。

图 5：Epicflow（Revaud 等人 2015）和 TOFlow 插值（有和没有掩码）之间的比较。

4.5 训练

为了加速训练过程首先对络的一些模块进行预训练，然后对它们进行微调。详情如下。

预训练流量估计络。预训练流络包括两个步骤。首先，对于所有任务在 Sintel 数据集(Butler et al 2012)上预训练运动估计络，这是一个具有真实光流的真实渲染视频数据集。

第二步，对于视频去噪和超分辨率，用嘈杂或模糊的输入帧对其进行微调，以提高其对这些输入的鲁棒性。对于视频插值，我们使用来自视频三元组的帧 I1 和 I3 作为输入对其进行微调，从而最小化估计光流与真实流 v23（或 v21）之间的 l1 差异。这使流络能够计算从未知帧 I2 到帧 I3 的运动，仅给定帧 I1 和 I3 作为输入。

实验结果表明，两步预训练可以提高算法的收敛速度。此外，由于预训练的主要目的是加速收敛，我们简单地使用估计的光流和地面真实之间的 l1 差作为损失函数，而不是流量文献中的端点误差(Brox et al 2009;Butler 等人 2012 年)。训练前阶段的选择损失函数对最终结果的影响较小。

预训练掩码络。在联合训练之前，我们还预训练了用于视频插值的遮挡掩码估计络，作为视频处理络的可选组件。两个遮挡掩码（m21 和 m23）与同一络一起估计，只有光流 v21、v23 作为输入。通过最小化输出掩码和预先计算的遮挡掩码之间的 l1 损失来训练络。

联合培训。经过预训练后，我们通过减少恢复帧与地面真相之间的最小损失，而无需对估计的流场进行任何监督。为了进行优化，我们使用亚当值(Kingma 和 Ba2015)，重量衰减为 10?4。我们为所有任务运行了 15 个批大小的 1。去噪/去阻塞和超分辨率的学习率为 10^{?4}，插值的学习率为 3×10^{?4}。

5、Vimeo-90K数据集

为了获取高质量的视频进行视频处理，求助 Vimeo，很多视频都是用专业相机拍摄的，涉及不同的话题。另外搜索没有帧间压缩的视频(例如 H.264)，这样每一帧都是独立压缩的，避免视频编解码器引入的人工信号。由于很多视频都是由多个镜头组成的，使用一个简单的基于阈值的镜头检测算法将每个视频分割成一致的镜头，并进一步使用 GIST feature (Oliva and Torralba 2001)去除具有相似场景背景的镜头。

因此，我们从 Vimeo 中收集了一个新的视频数据集，包括 4278 个视频，89,800 个内容不同的独立镜头。为了标准化输入，我们将所有帧的大小调整为固定分辨率 448256。如图 6 所示，从数据集中采样的帧包含室内外场景的不同内容。当平均运动幅度在 18 像素之间时，我们保持连续帧。图 6 右列显示了整个数据集的流量大小直方图，其中流场是通过 SpyNet (Ranjan 和 Black 2017)计算的。

图 6：Vimeo-90K 数据集。(a) 来自数据集的采样帧，显示了我们数据集的高质量和广泛覆盖；(b) 数据集中所有像素的流量大小直方图；(c) 所有图像的平均流量大小的直方图（图像的流量大小是该图像中所有像素的平均流量大小）。

Vimeo去噪/去块基准。我们使用为插值基准引入的前两个标准从 38,990 个视频剪辑中选择 91,701 个帧 septuplets 进行去噪任务。对于视频去噪，我们考虑两种类型的噪声：标准偏差为 0.1 的高斯噪声，以及除高斯噪声外还包括 10%椒盐噪声的混合噪声。对于视频解块，我们使用 FFmpeg 和编解码器 JPEG2000、格式 J2k 和量化因子 q = {20,40,60}压缩原始序列。

Vimeo超分辨率基准测试。我们还使用相同的一组 septuplets 来构建降采样因子为 4 的 Vimeo 超分辨率基准测试：输入和输出图像的分辨率分别为 112 64 和 448 256。为从高分辨率输入生成低分辨率视频，使用 MATLAB imresize 函数，该函数首先使用三次滤波器模糊输入帧，然后使用双三次插值对视频进行下采样。

6、评估

在本节中，我们评估所提议络的两种变体。第一个是分别训练每个模块：我们首先预训练运动估计，然后在固定流模块的同时训练视频处理。这类似于两步视频处理算法，我们将其称为固定流。另一种是联合训练所有模块将其称为 TOFlow。两个络都在我们收集的 Vimeo 基准上进行了训练。在三个不同的任务上评估这两种变体，并与其他最先进的图像处理算法进行比较。

6.1 帧插值

数据集。我们评估了三个数据集：Vimeo 插值基准、Liu 等人 (2017) (DVF) 使用的数据集和 Middlebury 流数据集（Baker 等人 2011）。

指标。我们使用两个定量度量来评估插值算法的性能：峰值信噪比（PSNR）和结构相似性（SSIM）指数。

基线。我们首先将我们的框架与两步插值算法进行比较。对于运动估计，我们使用 EpicFlow 和 SpyNe 。为了处理 4.4 节中提到的遮挡区域，我们使用 Zitnick 等人(2004) 提出的算法计算每帧的遮挡掩码，并且仅使用非遮挡区域来插入中间帧。此外，我们与最先进的端到端模型、深度体素流 (DVF) 、自适应卷积 (AdaConv) 和可分离卷积进行了比较。最后，我们还与 Fixed Flow 进行了比较，这是另一种基线两步插值算法。

表 1：在 Vimeo 插值测试集和 DVF 测试集上的不同帧插值算法的定量结果（Liu 等人，2017）。

结果。表 1 示了我们的定量结果 2。在 Vimeo 插值基准测试中，TOFlow 总体上优于其他插值算法，无论是传统的两步插值算法（EpicFlow 和 SpyNet）还是最近的基于深度学习的算法（DVF、AdaConv 和 SepConv），都有显着的优势。尽管我们的模型是在 Vimeo-90K 数据集上训练的，但它在 PSNR 和 SSIM 方面也优于 DVF 数据集上的 DVF。与 Fixed Flow 相比，还有一个显着的提升，表明络确实在联合训练期间学习了更好的插值流表示。

图 7：帧插值的定性结果。放大视图显示在右下方。

图 7 还显示了定性结果。所有两步算法（EpicFlow 和 Fixed Flow）都会产生加倍的伪像，比如第一行的手或第二行的头部。另一侧的 AdaConv 没有加倍伪影，但通过直接合成没有运动模块的插值帧，它往往会产生模糊的输出。SepConv 与 AdaConv 相比增加了输出帧的锐度，但仍然存在伪影（见底行的帽子）。与这些方法相比，即使在存在大运动的情况下，TOFlow 也能正确恢复更清晰的边界和精细的细节。

表 2：五种帧插值算法在 Middlebury 流数据集上的定量结果：PMMST、SepConv、DeepFlow 和我们的 TOFlow。遵循 Middlebury 流数据集的惯例，告了 1) 整个图像、2)运动不连续区域和 3)无纹理区域中的地面实况图像和插值图像之间的平方根误差(SSD)。

表 2 显示了所提出的算法与 Middlebury 上最好的四个替代算法的定性比较。我们使用官方站上告的平方差之和（SSD）作为评估指标。TOFlow 的性能优于其他插值络。

6.2视频去噪/去块

设置。我们首先在 Vimeo 去噪基准测试上训练和评估我们的框架，其中包含三种类型的噪声：标准差为 15 个强度级别的高斯噪声(VimeoGauss15)、标准差为 25 的高斯噪声 (Vimeo-Gauss25)，以及高斯噪声和高斯噪声的混合 10%椒盐噪声（Vimeo 混合）。为了将我们的络与 V-BM4D (Maggioni et al 2012)（一种单目视频去噪算法）进行比较，我们还将 Vimeo Denoising Benchmark 中的所有视频转换为灰度以创建 VimeoBW（仅高斯噪声），并在其上重新训练我们的络。我们还在 V-BM4D 中的单声道视频数据集上评估我们的框架。

基线。将我们的框架与 V-BM4D 进行比较，将高斯噪声的标准偏差作为其在两个灰度数据集（Vimeo-BW 和 VBM4D）上的附加输入。和以前一样，我们还在三个 RGB 数据集（VimeoGauss15、Vimeo-Gauss25 和 Vimeo-Mixed）上与我们框架的固定流变体进行了比较。

表 3：视频去噪的定量结果。左：具有三种不同类型噪声的 Vimeo RGB 数据集；右：两个灰度数据集：Vimeo-BW 和 V-BM4D。

结果。我们首先在具有三种不同噪声水平的 Vimeo 数据集上评估 TOFlow（表 3）。TOFlow 的表现明显优于 Fixed Flow，证明了联合训练的有效性。此外，当噪声级别增加到 25 或添加额外的椒盐噪声时，TOFlow 的 PSNR 仍然在 34dB 左右，显示出其对不同噪声级别的鲁棒性。这在图 8 的右半部分进行了定性演示。

图 8：视频去噪的定性结果。放大后差异更明显。

在两个灰度数据集 Vimeo-BW 和 V-BM4D 上，TOFlow 在 SSIM 中的表现优于 V-BM4D。这里我们没有在 V-BM4D 上对其进行微调。尽管 TOFlow 在 PSNR 中仅达到与 V-BM4D 相当的性能，但 TOFlow 的输出比 V-BM4D 清晰得多。如图 8 所示，胡须和领子的细节被 TOFlow 保留在去噪帧中（图 8 的左中），树上的叶子也更清晰（图 8 的左下）。因此，TOFlow 在 SSIM 中击败了 V-BM4D，比 PSNR 更能反映人类的感知。

表 4：视频去块的结果。

对于视频解块，表 4 显示 TOFlow 优于 V-BM4D。图 9 还显示了 TOFlow、Fixed Flow 和 V-BM4D 之间的定性比较。请注意，TOFlow 完全去除了女孩头发（上）和男人鼻子（下）周围的压缩伪影。由于块状压缩，人眼周围的垂直线（底部）也被我们的算法去除了。为了证明我们的算法在不同量化级别的视频解块上的稳健性，我们还在三种不同量化级别下生成的输入视频上评估了三种算法，并且 TOFlow 始终优于其他两个基线。图 10 还显示，当量化级别增加时，解块输出基本保持不变，表明 TOFlow 的鲁棒性。

图 9: 关于视频去封块的定性结果。当被放大时，差异会更明显。

图 10: 对具有不同编码质量的帧的计算结果。当被放大时，差异会更明显。

6.3视频超分辨率

数据集。在两个数据集上评估我们的算法：Vimeo 超分辨率基准和由 Liu 和 Sun（2011）(BayesSR)提供的数据集。后一个序列由四个序列组成，每个序列都有 30 到 50 帧。Vimeo 超分辨率基准测试只包含 7 帧，因此没有完整的剪辑评估。

基线。将我们的框架与双三次上采样、三种视频 SR 算法进行比较：BayesSR、DeepSR 和 SPMC，以及带有固定流量估计模块的基线。BayesSR 和 DeepSR 都可以将不同数量的帧作为输入。因此，在 BayesSR 数据集上，我们告两个数字：一个在整个序列上，另一个在中间的 7 帧上，因为 SPMC、TOFlow 和 Fixed Flow 仅以 7 帧作为输入。

表 5：视频超分辨率的结果。Vimeo-SR 中的每个剪辑包含 7 帧，而 BayesSR 中的每个剪辑包含 30-50 帧。

测试结果。表 5 显示定量结果。当使用 7 帧作为输入时，我们的算法的性能比基线算法更好，当贝叶斯 SR 使用所有 30-50 帧作为输入，而我们的框架只使用 7 帧时，它也实现了与贝叶斯 SR 相当的性能。图 11 中显示了定性的结果。与 DeepSR 或固定流相比，联合训练的 TOFlow 会产生更清晰的输出。请注意，在 TOFlow 合成的高分辨率框架中，布料（顶部）和刀尖（底部）上的文字更加清晰。这表明了联合培训的有效性。

图 11：超分辨率的定性结果。特写视图显示在每个结果的左上角。放大后差异更明显。

为更好地了解有多少输入帧足够实现超分辨率，我们还使用不同数量的输入帧来训练 TOFlow，如表 6 所示。当从 3 帧切换到 5 帧时，有很大的改进，当进一步切换到 7 帧时，改进变得很小。因此，5 帧或 7 帧应该是足够的超分辨率。

表 6：具有不同输入帧数的视频超分辨率的结果。

此外，用于创建低分辨率图像的下采样内核（也称为点扩展函数）也可能影响性能超分辨率（Liao et al 2015）。为了评估下采样内核如何影响我们算法的性能，我们评估了三个不同的任务，这些任务在去噪解块超分辨率上评估了流。图 12：TOFlow 在任务上的定性结果，包括但不限于它所训练的任务. ent kernels：cubic kernels、box down-sampling kernels、方差为 2 个像素的，结果如表 7 所示。切换到 box kernel 时 PSNR 下降 1 dB，切换到 Gaussian kernel 时 PSNR 下降 1 dB。这是因为下采样内核消除了低分辨率输入图像中的高频混叠，使超分辨率变得更加困难。在这里的大多数实验中，我们遵循以前的多帧超解论文中的约定，通过双三次插值创建低分辨率图像，没有模糊内核。然而，模糊核的结果也很有趣，因为它更接近于相机捕获的低分辨率图像的实际形成。

表 7：当使用不同的下采样内核构建数据集时，视频超分辨率的 TOFlow 的结果。

在所有的实验中，我们在一个 NVIDIATitanXGPU 上训练和评估我们的络。对于分辨率为 256×448 的输入剪辑，我们的络对于插值需要约 200ms，对于去噪或超分辨率需要 400ms（到超分辨率络的输入分辨率为 64×112），其中流模块对于每个估计的运动场需要 18ms。

6.4从不同任务中获得的流量

我们现在比较和比较从不同任务中学习到的流，以了解是否有必要以这种面向任务的方式学习流。

图 12：TOFlow 在任务上的定性结果，包括但不限于它所训练的任务。

我们通过用在不同任务上训练的流络替换模型中的流估计络来进行消融研究（图 12 和表 8）。当我们使用未经该任务训练的流络时，性能会显着下降。例如，使用去块或超分辨率训练的流络，去噪算法的性能下降了 5dB，并且图像中有明显的噪声（图 12 的第一列）。当我们应用经过超分辨率训练的流络进行去块时，也会出现振铃伪影（图 12 第 2 行，第 2 列）。因此，我们面

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

使用面向任务流程的增强视频

相关推荐