如何高效系统学习语音识别技术？

作为智能语音领域的热点研究方向，说话人确认(Speaker Verification)旨在根据注册语音判断测试语音与其是否属于同一说话人的一项技术。近年来，基于深度神经络的说话人确认技术在可控场景下取得了卓越的性能。但是在实际应用场景中，外在不可控的环境噪声、人与设备交互距离所产生的远场语音衰减、房间混响混响以及近场注册与远场验证的域不匹配（domain mismatch）等问题都会导致说话人确认系统性能的大幅度下降。在智能家居等应用场景下，用户通常通过近场设备（如手机）进行声纹注册，实际使用时可能通过手机（近讲）或者智能音箱和电视（远讲）进行声纹确认，这就会导致注册语音和测试语音的域不匹配问题。如何让说话人确认系统能够更好处理这种在远场说话人确认中域不匹配问题，一直以来都是非常重要的研究课题。

西工大音频语音与语言处理研究组（ASLP@NPU）近年来致力于基于深度学习的稳健性说话人识别研究。去年针对上述远场声纹场景下域不匹配问题 [1]，我们探究了传统多通道信号处理、数据增广等方法在提升说话人确认系统的稳健性的重要作用，并以此获得了Interspeech2020远场声纹挑战赛（FFSVC）分布式阵列赛道（任务3）第二名的优异成绩[2]。

图1 实验室参加FFSVC2020竞赛获得任务3的第二名

近期，实验室针对远场声纹的域不匹配问题开展了更为深入的研究。由实验室与新加坡国立大学（NUS）、新加坡资讯通讯研究院（I2R）合作提出了使用多层级迁移学习的方案来改善注册语音和测试语音的域不匹配问题，相关论文” Multi-Level Transfer Learning from Near-Field to Far-Field Speaker Verification” 被语音研究顶级会议INTERSPEECH2021接收[3]。在这项工作中，我们基于教师-学生（teacher-student）框架，采用瓶颈层特征级和实例级知识迁移来学习领域不变的说话人嵌入空间。在FFSVC2020 评估集上，该模型取得的结果超越了当年竞赛最佳成绩。现对该论文进行简要的解读和分享。

● 论文题目：Multi-Level Transfer Learning from Near-Field to Far-Field Speaker Verification

● 论文原文：
https://arxiv.org/pdf/2106.09320.pdf

图2 发表论文截图

背景动机

在远场说话人确认中，用户注册语音和测试语音的录音条件不匹配（如拾音距离不同）时，说话人嵌入（speaker embedding）的性能会明显下降。针对这种域不匹配问题，最重要的目标是使来自不同域的说话人嵌入的分布尽可能接近。当近讲语音相对比较干净且与远讲语音成对存在时，可以通过将近讲语音的性能迁移到远讲语音的识别中，监督远讲语音获取鲁棒性强的说话人嵌入。教师-学生（T/S）模型框架在这类成对的样本中进行知识迁移是一个潜在的解决方案。FFSVC2020竞赛数据提供了用于说话人嵌入模型训练的近讲-远讲成对数据[1]，为开展这方面的研究提供了便利。

当前的基于T/S模型的域自适应主要关注分类准确率的引导和特征级上的说话人嵌入的距离的拉近，但是忽略了不同类之间说话人嵌入的拉远。我们知道，拉大不同类之间的距离同等重要。同时，当前方案也没有关注学生模型对于已训好的教师模型所形成的样本对之间分布的学习，即忽略了实例级别的域迁移。对于说话人确认任务，核心优化目标是类内间距越来越近，类间间距越来越大。在T/S 框架下，为了保证学生模型拥有教师模型说话人嵌入的可靠性，特征级映射和实例级的类间距分布的一致性都很重要。

提出的方案

我们提出的方法的概述如图4所示，由四部分组成，分别是教师模型、学生模型、特征级迁移学习和实例级迁移学习。特征级和实例级迁移学习部分在嵌入层上运行。特征级迁移学习旨在增加类间距离以及减少类内距离。实例级迁移学习将从教师模型中提取的“锚”说话人嵌入与学生模型提取的说话人嵌入进行比较，其包含具有相同说话人标签的正样本说话人嵌入和具有不同说话人标签的负样本说话人嵌入。图4右侧，TES和SES分别是教师嵌入空间和学生嵌入空间的缩写。

图4 基于T/S框架的多级迁移学习

特征级别知识迁移

该公式以从已经训练好的教师模型中提取的说话人嵌入作为“锚”，从两个方面优化学生模型的说话人嵌入空间。一方面减少了与同类说话人嵌入的距离，另一方面增大了来自不同类说话人嵌入的距离。通过这种方式，用教师模型的说话人嵌入监督学生模型说话人嵌入的学习。

说话人实例级别知识迁移

为了实现学生模型和教师模型的说话人嵌入空间具有相同的分布，我们同时采用实例级别知识迁移。首先用已训好的教师模型生成两两说话人嵌入之间的相似度矩阵，同时计算学生空间的说话人嵌入两两之间的相似度矩阵，如公式（2）和（3）所示。

接着用最小均值误差（MSE）损失减少教师说话人嵌入空间和学生说话人嵌入空间的相似度矩阵之间的距离，如公式（4）所示，从而确保学生模型学习的说话人空间能够和教师模型的说话人空间中实例样本对之间距离的分布一样。

这种方法可以惩罚教师模型和学生模型的成对相似度矩阵的差异，以便我们可以优化学生模型的嵌入空间，使其更接近教师模型的嵌入空间。

实验验证

实验配置

训练集包括两大部分：Openslr 站（https://openslr.org/）公开数据集SLR33， SLR38， SLR47， SLR49， SLR62， SLR82， SLR85；FFSVC2020 训练集。实验结果在FFSVC2020提供的开发集（dev）和评估集（eval）上进行展示。T/S 模型结构为Thin ResNet34-SE[4]。

实验结果

我们在 FFSVC2020 挑战赛的数据集上证明了方法的有效性，实验结果总结于表1和表2。在所有任务的开发集上，与其他相对比的迁移学习方法相比，我们的方法取得更为卓越的性能。表1底部三行是消融实验。实验结果表明，特征级知识迁移和实例级知识迁移都是有效的，二者相比与基线都有不同程度的提升。当二者相互结合时，性能提升更为明显。

表 1 FFSVC2020 任务1开发集上的结果

表2 FFSVC2020 任务2和任务3开发集上的结果

表3 FFSVC2020 任务1、2、3评估集上的结果

说话人嵌入分布的可视化

图5 说话人嵌入分布的可视化(t-SNE)

结论

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

如何高效系统学习语音识别技术？

相关推荐