ACL 2022 | NLP领域最新热门研究，你一定不能错过

01 SpeechT5：语音和文本联合预训练的编码器解码器框架

论文链接：https://arxiv.org/abs/2110.07205

图1：（a）是 SpeechT5 模型结构，该模型架构包含一个编码器-解码器模块和六个模态特定的前处理/后处理络。（b）是联合预训练方法，通过在不同模态之间共享潜在量化向量，联合预训练方法搭建起了语音和文本之间的桥梁。

02 利用对比前缀的可控自然语言生成

论文链接：https://arxiv.org/abs/2202.13257

03 预训练 Transformers 中的知识神经元

论文链接：https://arxiv.org/abs/2104.08696

首先，如图3所示，研究员们把 Transformer 中的 FFN 模块类比为键-值记忆模块。具体来说，FFN 中的第一个线性层可以被看做一系列键，而第二个线性层可以被看做一系列对应的值。一个隐向量先跟第一个线性层中的键通过内积来计算出一系列中间神经元的激活值，然后用这个激活值作为权重，来对第二个线性层中的值进行加权求和。研究员们假设知识神经元就存在于这些中间神经元之中。

图3：研究员们把 FFN 模块类比为键-值记忆模块，而知识神经元存在于其中

在以上类比和假设的基础之上，研究员们提出了一套检测知识神经元的方法。基于知识填空的任务，研究员们先通过知识归因算法来找到对最终知识表达最重要的神经元，然后再通过一个知识神经元精炼的步骤，进一步提取出跟知识表达最为相关的神经元。

04 基于神经标签搜索的零样本多语言抽取式摘要

论文链接：https://arxiv.org/abs/2204.13512

多语言标签是通过机器翻译和双语词典替换等无监督的方式所构造的标签，如图4所示，其中包含a、b、c、d四组标签集合，它们分别通过不同语言间的翻译和词替换来构造。通过这种方式构造的标签能够在标签中融入更多跨语言信息。

图4：多语言抽取式摘要标签构建。a为在英文上获得的标签集合，b、c、d为对英文训练集进行机器翻译（MT）和双语词典替换（WR）而获得的标签集合。

图5：多语言神经标签搜索摘要模型

05 NoisyTune: 加一点噪声就能帮你更好地微调预训练语言模型

论文链接：https://arxiv.org/abs/2202.12024

预训练语言模型是近年来自然语言处理领域备受关注的热门技术之一。在下游任务中如何有效地微调预训练语言模型是其成功与否的关键。目前已有的许多方法直接利用下游任务中的数据来微调预训练语言模型，如图6(a)所示。但是，研究员们认为语言模型也存在过拟合预训练任务和数据的风险。由于预训练任务与下游任务通常存在鸿沟，已有的微调方法较难快速地从预训练空间迁移到下游任务空间，特别是当下游任务的训练数据较为稀少时。针对这一问题，微软亚洲研究院的研究员们提出了一种简单而有效的解决方案，即在微调之前添加少量噪声来扰动预训练语言模型，名为 NoisyTune。其范式如图6(b)所示。

研究员们认为，对 PLM 添加少量噪声可以帮助模型“探索”更多潜在的特征空间，从而减轻对预训练任务和数据的过拟合问题。为了更好地保留语言模型的知识，研究员们提出了一种根据参数矩阵的方差添加均匀噪声的方法，这种方法能够根据不同类型参数的特点添加合适强度的噪声，其公式如下。其中超参数λ控制了添加噪声的强度。

研究员们在英文的 GLUE 数据集与多语言的 XTREME 数据集上开展了实验。结果显示，NoisyTune 可以有效为不同类型的语言模型带来提升，特别是对规模相对较小的数据集提升幅度更大。

此外，研究员们还进一步探究了添加不同噪声对于 NoisyTune 的影响，结果发现加入全局统一分布的噪声往往对模型性能有一定损害，而根据参数矩阵的偏离程度添加效果更佳。另外，可能由于高斯噪声缺乏硬性范围约束，添加均匀分布噪声的模型效果比高斯噪声更好。

图7：不同噪声类型对 NoisyTune 的影响

06 零样本神经机器翻译的跨语言迁移

论文链接：https://arxiv.org/abs/2110.08547

SixT+ 使用 XLM-R large 初始化解码器嵌入和整个编码器，然后使用简单的两阶段训练策略训练编码器和解码器。SixT+ 在不少翻译方向上都取得了很好的结果，性能明显优于 CRISS 和 m2m-100 这两个强大的多语言神经机器翻译系统，其平均增长分别为7.2和5.0 BLEU。

此外，SixT+ 也是一个很好的预训练模型，可以进一步微调以适应其他无监督任务。实验结果证明，在斯洛文尼亚语和尼泊尔语这两个语言的翻译上，SixT+ 比最先进的无监督机器翻译模型的平均 BLEU 高出1.2以上。SixT+ 同样可以应用于零样本跨语言摘要，它的平均性能显著高于 mBART-ft，平均可以提高 12.3 ROUGE-L。研究员们还对 SixT+ 进行了详细分析，以了解 SixT+ 的关键组成部分，包括多语言平行数据的必要性，位置分离编码器及其编码器的跨语言迁移能力。

图8：研究员们提出的两阶段训练框架，利用多语言预训练模型 XLM-R 建立跨语言生成模型。图中蓝色的冰块表示用 XLM-R 初始化并冻结，而红色的火焰则代表随机初始化或从第一阶段开始初始化。

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！