合成噪声和自然噪声都可破坏神经机器翻译

引用

Belinkov Y, Bisk Y. Synthetic and natural noise both break neural machine translation[J]. arXiv preprint arXiv:1711.02173, 2017.

摘要

1. 简介

人类有健壮得令人惊讶的语言处理系统,可以很容易地克服打字、拼写错误和字母省略的阅读。Saberi&Perrott 发现这种鲁棒性也扩展到了音频,他们用倒放的方式试验了部分音频记录,发现这并不影响理解。Rayner 等人发现在嘈杂的环境中,阅读理解只会减慢 11%。McCusker 等人发现交换字母常常会被读者忽视。人类理解系统的确切机制和局限性是未知的,有一些证据表明我们依赖单词形状,我们可以在整个单词识别和从字母中拼凑单词之间切换,而且似乎没有证据表明首字母和最后一个字母的位置需要保持不变才能理解。

与此形成鲜明对比的是,尽管神经 络机器翻译(NMT)系统得到了广泛的应用,但它却非常脆弱。然而打字错误和噪音对 NLP 来说并不新鲜,我们的系统很少被训练来解决它们,我们希望相关的噪声会发生在训练数据中。尽管有这些问题,但转向基于字符的 NMT 是很重要的,它帮助我们处理自然语言中未登录词的长词缀分布,以及减少处理大词嵌入矩阵的计算负荷。

为了研究噪声对 NMT 的影响,我们探索了两种提高模型鲁棒性的简单策略:使用结构不变的词语表示和对噪声数据的鲁棒性训练,这是一种对抗性训练。我们发现,在噪声类型集合上训练的字符 CNN 表示对各种噪声都是鲁棒的。 我们揭示了模型对多种类型噪声学习鲁棒表示的能力,并指出了处理自然噪声的困难。 我们的目标是两个方面:1)在 NMT 中启动关于鲁棒训练和建模技术的交互;2)促进创建更好、更准确的人工噪声,以应用于新的语言和任务。

2. 对抗性实例

越来越多关于对抗性例子的文献表明,在现实世界中如此普遍地使用脆弱的机器学习系统是多么危险,输入的微小变化就会导致深度学习模型的失败,在机器视觉领域中,人为对输入图像进行难以分辨的更改,就可能导致分类错误,这引起了使用对抗性示例进行恶意攻击的可能性。在白盒攻击(通过访问模型参数生成对抗性示例)和黑盒攻击(在没有这种访问的情况下生成示例)之间也有重要的区别。

另一面是提高模型对对抗性例子的鲁棒性,对抗性训练,包括训练数据中的对抗性例子可以提高模型在测试时应对这些例子的能力。这种防御对训练中看到的对抗性例子的类型很敏感,但可以通过集成对抗性训练来提高其鲁棒性-从多个预先训练的模型中转移的例子的训练,我们通过在训练时结合多种类型的噪声来探索集成训练,并在机器翻译场景中观察到类似的增强鲁棒性。

对抗噪声的训练是早期关于通过将噪声纳入 络的表征、数据或梯度来在神经 络中创建鲁棒性的工作的重要扩展。带有噪声的训练可以提供一种正则化形式,并确保模型暴露在训练分布之外的样本中。

3. 机器翻译系统

最近由于端到端模型在神经机器翻译中的兴起,导致了人们对这些模型如何运作产生兴趣,一些研究调查了这些模型在形态学、句法和语义水平学习语言特性的能力。字符或其他替换词单元的使用是这些模型中的一个重要组成部分。我们的工作补充了以前的研究,提出了这样的 NMT 系统的噪声例子,并探索了提高其鲁棒性的方法。

我们实验了三个不同的 NMT 系统,在不同的层次上访问字符信息。首先,我们使用 Lee 等人的完全字符级模型。这是一个值得注意的序列到序列模型,进行字符-字符的训练。它有一个复杂的高速卷积编码器和递归层,和一个标准的递归解码器。该模型在德语 → 英语和捷克语 → 英语对上有很好的表现。我们使用预先训练的德语/捷克语 → 英语模型。

第二,我们使用 Nematus,这是一个流行的 NMT 工具包,用于提高 WMT 和 IWSLT 中公共 MT 任务的贡献。它是另一个具有几个体系结构修改的序列到序列模型,特别是使用字节对编码(BPE)在子字元单元上操作。我们对它们的单一最佳模型和集合 BPE 模型进行了实验,但在噪声下它们的性能没有显著差异,因此我们 告了它们的单一最佳 WMT 模型在德语/捷克语 → 英语中的结果。

最后,我们训练了一个基于字符卷积神经 络的序列到序列模型,这个模型保留了单词的概念,但学习了单词的字符相关表示。它学习形态信息表征的能力被证明在形态丰富的语言上表现良好。charCNN 模型在编码器和解码器中有两个长的短期记忆层。我们使用 1000 个过滤器,宽度为 6 个字符。 字符嵌入大小设置为 25,我们用 Kim 的方法来训练 charCNN,所有其他设置都保持在默认值。

4. 数据

我们使用为 IWSLT2016 准备的 TED 并行数据集来测试所有 NMT 系统,以及训练 CharCNN 模型。我们通过利用自然发生的误差和合成误差,将噪声插入到并行 MT 数据的源端。为了便于今后在 NMT 中的噪声工作,我们发布了用于产生实验中使用的噪声的代码和数据。

由于我们无法访问具有自然噪声的并行数据集,作为代替我们从可用的数据集收集了自然发生的错误,以建立一个查找表的可能词汇替换。我们将这些错误插入到并行数据的源端,方法是如果一个单词存在于我们的数据集中就将数据集中的每个单词替换为一个错误。当有多个可能的替换选择时,我们均匀地取样,没有错误的词保持原样。

表 1. 自然噪声和 4 种合成噪声对文本训练模型的影响

5. 噪声处理

5.1 结构不变的词语表示

三种 NMT 模型都对单词结构敏感。char2char 和 char CNN 模型都在字符序列上有卷积层,旨在捕获字符 n-gram。Nematus 的模型是基于 BPE 得到的替换字单元。因此,它依赖于替换词单元内部和跨替换词单元的字符顺序,所有这些模型都对字符扰频(Swap、Mid 和 Rand)产生的噪声类型敏感。我们能通过增加这些噪声的不变性来提高模型的鲁棒性吗?也许最简单的模型是将平均字符嵌入作为单词表示。该模型被称为 meanChar,首先通过平均字符嵌入生成一个单词表示,然后使用类似于 CharCNN 模型的字编码器进行。meanChar 模型从定义上讲对扰频不敏感,尽管它仍然对其他类型的噪声敏感。

5.2 黑盒对抗性训练

为了提高模型的鲁棒性,我们遵循了一个黑盒对抗性训练场景,其中给出了在不直接访问模型的情况下生成的对抗性示例。我们将原来的训练集替换为噪声训练集,噪声训练集的句子和单词数与训练集完全相同,每个噪声类型都设有一个固定的噪声训练集。

在有噪声的文本上训练 meanChar 模型似乎并没有持续地提高其对不同类型噪声的鲁棒性。然而,meanChar 模型并不能很好地处理非扰动类型的噪声。接下来,我们测试我们是否可以通过在训练过程中将模型暴露于多种类型的噪声来提高训练的鲁棒性。 我们的目的是看看模型是否能在不止一种噪声上表现良好。 因此,我们混合了三种噪声,通过对每个句子均匀随机抽样噪声方法。 然后,我们在混合噪声训练集上训练一个模型,并在测试集上进行测试,我们发现,训练在混合噪声上的模型比训练在非混合噪声上的模型略差。然而,训练的混合噪声模型对它们所训练的特定类型的噪声具有鲁棒性。 特别是,在 Rand、Key 和 NAT 噪声混合下训练的模型对所有噪声类型都具有鲁棒性。 尽管它在任何一种噪声上都不是最好的,但它平均取得了最好的结果。

6. 分析

通过对混合噪声类型的训练,charCNN 模型能够很好地处理各种噪声。特别是它在添加干扰字符上表现良好,尽管它的卷积应该对字符顺序敏感,而不是 meanChar,它在定义上与字符顺序不变。 那么,charCNN 如何同时学会对多种噪声具有鲁棒性呢?我们推测,不同的卷积滤波器学会了对不同类型的噪声具有鲁棒性。卷积滤波器原则上可以通过使用相等或接近相等的权重来完成均值操作。

为了测试这一点,我们分析了在四个条件下训练的 charCNN 模型所学习的权重:三个模型分别训练在完全乱的单词(Rand)、键盘打字(Key)和自然人类错误(NAT)上,以及一个在 RandKeyNat 各种噪声混合下训练的集成模型。对于每个模型,我们计算 1000 个滤波器中的每个滤波器和 25 个字符嵌入维数中的每个滤波器宽度(6 个字符)的方差。直观地说,这个方差捕捉了一个特定的过滤器在多大程度上学习了一个统一的和不统一的字符组合。然后我们平均 1000 个滤波器的方差。这产生了 25 个平均方差,每个字符嵌入维度一个。低平均方差意味着不同的过滤器倾向于学习相似的行为,而高平均方差意味着他们学习不同的模式。

自然噪声似乎与合成噪声有很大的不同。 仅对合成噪声进行训练的模型中没有一个能够很好地处理自然噪声。 我们手动分析了来自德国数据集的自然噪声样本。 我们发现最常见的噪声源是语言中的语音或语音现象(34%)和字符遗漏(32%)。其余的是不正确的动词形态共轭,键互换,字符插入,正字变体和其他错误。

最常见的自然噪声类型-语音和遗漏-没有被我们的合成噪声产生直接捕获,并证明良好的合成错误可能需要更明确的音素和语言知识。 这种差异有助于解释为什么在合成噪声方面训练的模型在转换自然噪声方面不是特别成功。

7. 结论

我们已经证明了基于字符的 NMT 模型是非常脆弱的,并且当呈现出自然和合成的噪声时往往会出现错误。我们研究了通过使用结构不变词表示和通过对不同类型的对抗性示例进行集成训练来提高它们的鲁棒性的方法。 我们发现基于字符的 CNN 可以学习解决训练中看到的多种类型的错误。然而,我们观察到自然人类错误的丰富特征,这些错误不能很容易地被现有的模型捕获。未来的工作可能会研究使用语音和句法结构来产生更真实的合成噪声。

我们认为,为了使 NMT 模型免受自然噪声的影响,需要做更多的工作。由于具有自然噪声的数据集是有限的,未来工作的另一种方法是设计更好的 NMT 体系结构,在训练数据中没有出现,而对噪声具有鲁棒性。 关于人类如何应对自然噪音的新思想结果可能会指出解决这个问题的可能办法。

致谢

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2020年12月12日
下一篇 2020年12月12日

相关推荐