思必驰-上海交大实验室14篇 ICASSP 2018入选论文解读

雷锋 AI 科技评论按:为期 5 天的 ICASSP 2018,已于当地时间 4 月 20 日在加拿大卡尔加里(Calgary)正式落下帷幕。ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由 IEEE 主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。今年 ICASSP 的大会主题是「Signal Processing and Artificial Intelligence: Challenges andOpportunities」,共收到论文投稿 2830 篇,最终接受论文 1406 篇。其中,思必驰-上海交大智能人机交互联合实验室最终发表论文 14 篇,创国内之最。

14 篇论文内容概述如下:

1.抗噪鲁棒语音识别在 Aurora4 基准上的机器与人类对比

NoiseRobust Speech Recognition on Aurora4 by Humans and Machines.

By Yanmin Qian, Tian Tan, Hu Hu and Qi Liu.

本篇 paper 已发表在 2018 年的 IEEE/ACM TASLP 上,感兴趣的朋友可关注如下信息:

Adaptivevery deep convolutional residual network for noise robust speech recognition.IEEE/ACM Transactions on Audio, Speech, and Language Processing.

By Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu.

DOI:10.1109/TASLP.2018.2825432,2018.

噪声环境下的语音识别一直是一个巨大挑战。在我们实验室之前开发的极深卷积神经 络 VDCNN 基础上,通过引入残差学习得到 VDCRN 模型以进一步提升模型鲁棒性,同时在 VDCRN 模型上开发聚类自适应训练方法来减少模型在噪声环境下的训练和测试间失配。此外,还使用基于未来信息预测向量的新型 LSTM-RNNLM 来改善系统性能。最终所开发的抗噪语音识别系统,在噪声标准数据集 Aurora4 上达到了 3.09%的词错误率,也是目前在此任务上 道的最好结果。经过分析对比,这个错误率已经非常接近真实人类在这个任务上的性能,在抗噪鲁棒语音识别研究上具有里程碑意义。

图2:极深卷积残差神经 络结构图VDCRN

图3:CAT-VDCRN上聚类自适应训练,包括以特征图为基和卷积核为基

图4:不同系统下的WER(错词率)比较

如上图,我们的 5-gram+LSTM+FV-LSTM 的错词率已经与人类真实情况非常接近。

2.基于 Focal-KLD 空洞卷积神经 络模型的单信道多说话人识别

FocalKL-Divergence based Dilated Convolutional Neural Networks for Co-ChannelSpeaker Identification.

By Shuai Wang, Yanmin Qian and Kai Yu.

本篇 paper 获得 IEEE N.Ramaswamy MemorialStudent Travel Grant 奖项,今年仅 2 篇论文获得该奖项。在 2017 年 9 月,思必驰曾两次登上大型人工智能科普类节目《机智过人》,其中一期展示的是声纹识别技术,而这一片论文,则是对该技术的详细剖析。

单通道多说话人识别目的在于识别出一段有语音重叠的所有说话人,这也是著名的「鸡尾酒问题」的一个子问题。我们针对基于神经 络的单通道多说话人识别框架进行了多种改进:

1)采用空洞卷积学习到更鲁棒、区分性更好的深度特征。

2) 提出了 Focal-KLD 使得训练过程中给与 hard samples 更多的权重。

3)提出了一种后处理方法来将帧级别的预测汇总为句子级别的预测。实验结果表明我们提出的系统相对于基线系统取得了明显的性能提升,在两个说话人情况下达到 92.47%的正确率,三个说话人时正确率为 55.83%。

图5:基于RSR 数据库的人工混合的单信道多说话人数据

3.用于自适应波束成形的结合神经 络与聚类方法的鲁棒隐蔽值估计

RobustMask Estimation by Integrating Neural Network-based and Clustering-basedApproaches for Adaptive Acoustic Beamforming.

By Ying Zhou, Yanmin Qian.

思必驰拥有国内非常领先的前端声学处理能力,在多麦阵列和前端信号处理、asr方面均有不错的表现。在前端做了说话人自适应,后端辅以声学模型的自适应,在不同环境下不同说话人的识别结果有提高。目前思必驰阵列方案包括线性四麦、双麦等方案,成为联想电视、熊猫电视、阿里天猫精灵、腾讯听听等智能终端设备的共同选择。

图 6:不同方法进行自适应的错词率结果

如上图,引入了说话人相关参数的自适应方法进一步降低了几乎所有集合的识别错误率。经过这两个方法优化之后最终得到最好的结果比 BLSTM-IBM 系统提升了近 15%。

图7:前端mask神经 络与后端声学模型的自适应结合情况下的错词率情况

如上图,即使前端做了说话人自适应,后端声学模型的自适应仍旧有效。我们提出的与复数混合高斯模型结合的神经 络 mask 估计框架,由于引入了真实的训练数据可以有效减小仿真与实际环境的不匹配情况,并且由于加入了说话人自适应技术,可以针对特定的说话人得到更好的多麦降噪以及识别效果。

4.用对抗多任务学习的口语语义理解半监督训练方法

Semi-SupervisedTraining Using Adversarial Multi-Task Learning For Spoken LanguageUnderstanding.

By Ouyu Lan, Su Zhu, Kai Yu.

口语语义理解(Spoken Language Understanding, SLU)通常需要在收集的数据集上进行人工语义标注。为了更好地将无标注数据用于 SLU 任务,我们提出了一种针对 SLU 半监督训练的对抗对任务学习方法,把一个双向语言模型和语义标注模型结合在一起,这就减轻了对标注数据的依赖性。作为第二目标,双向语言模型被用于从大量未标注数据中学习广泛的无监督知识,从而提高语义标注模型在测试数据上的性能。我们为两个任务构建了一个共享空间,并为每个任务分别构建了独立私有空间。此外,对抗任务判别器也被用于获取更多任务无关的共享信息。在实验中,我们提出的方法在 ATIS 数据集上达到了最好的性能,并在 LARGE 数据集上显著提高了半监督学习性能。我们的模型使得语义标注模型更具一般性,且当标注数据显著多余无标注数据时,半监督学习方法更加有效。

图8:在不同数据集下的不同任务模型的实验结果

如上图,我们提出的 BSPM 和 BSPM+D 始终比其他方法取得更好的性能结果。与传统 STM 相比,我们的方法在全部数据集上显著提高 99.9%。与简单多任务模型 MTLe 相比,我们的方法在5k数据集上提升 99.9%,在 10k 数据集上提升 99.5%。与 PSEUDO 方法相比,在 5k 和 10k 数据集上提升 99.8%,在 15k 数据集上提升 95%。实验表明,当标注数据有限而无标注数据十分充足时,我们的半监督学习模型要更加有效。当语言模型学习无监督知识时,共享-私有框架和对抗训练使得语义标注模型泛化,在未见过的数据上表现更好。

5.基于深度强化学习的对话管理中的策略自适应

Policy Adaption For Deep Reinforcement Learning-Based Dialogue Management.

By LuChen, Cheng Chang, Zhi Chen, Bowen Tan, Milica Gasic, Kai Yu.

图9:基于DQN的多智能体对话策略(MADQN)

6.单通道多说话人语音识别中基于排列不变训练的知识迁移

Knowledge Transfer in Permutation Invatiant Training for Single-Channel Multi-TalkerSpeech Recognition.

By Tian Tan, Yanmin Qian and Dong Yu

7.单通道多说话人语音识别中基于辅助信息的自适应性排列不变训练

Adaptive Permutation Invariant Training with Auxiliary Information for MonauralMulti-Talker Speech Recognition.

By Xuankai Chang, Yanmin Qian and Dong Yu.

8.基于深度混叠生成 络的声学模型快速自适应方法

FastAdaptation on Deep Mixture Generative Network based Acoustic Modeling.

By WenDing, Tian Tan and Yanmin Qian

深度神经 络的正则化和自适应比较困难。我们深度混合生成 络,提出更高效的自适应方法:首先采用无监督模式提出自适应均值;提出鉴别性线性回归,当缺乏自适应数据时,能够估算出一个更鲁棒的均值。实验表明,我们提出的方法均比说话人无关的基线要好;此外对深度混合生成 络自适应结果的可视化标明,鉴别性线性回归的确帮助了均值从一个全局的点转换到说话人自身的中心点。

9.基于生成对抗 络数据生成的抗噪鲁棒语音识别

GenerativeAdversarial Networks based Data Augmentation for Noise Robust SpeechRecognition.

By HuHu, Tian Tan and Yanmin Qian.

10.联合 i-Vector 的端到端短时文本不相关说话人确认

Jointi-Vector with End-to-End System for Short Duration Text-Independent SpeakerVerification.

By Zili Huang, Shuai Wang and Yanmin Qian.

我们尝试在基于三元组损失函数的端到端声纹识别系统中引入 i-vector 嵌入。在短时文本无关任务上取得了 31.0%的提升。除此之外,我们提出了困难样本采样的方法提升基于三元组损失函数的端到端声纹识别系统的性能。

11.神经 络语言模型中利用结构化词向量的快速集外词合并

Fast OOV Words Incorporation Using Structured Word Embedding For Neural NetworkLanguage Model.

By Ruinian Chen, Kai Yu.

利用句法和形态层面的参数共享来解决神经 络语言模型中的集外词问题。每个词的embedding分成两个部分: syntactic embedding 和 morphological embedding, 而集外词的 syntactic 和 morphological 的信息可以通过知识获得,因此可以利用神经 络中已经训练好的参数,而无需重新训练模型。实验表明我们的模型在 PPL 和 CER 指标上均优于基线模型。

12.基于无监督语音识别错误自适应的鲁棒自然语言理解

Robust Spoken Language Understanding With Unsupervised ASR-Error Adaption.

By Su Zhu, Quyu Lan, Kai Yu.

13.音频到词语端到端语音识别中的模块化训练框架

On Modular Training of Neural Acoustics-to-Word Model For LVCSR.

By Zhehuai Chen, Qi Liu, Hao Li, Kai Yu.

传统的端到端系统不能使用文本数据进行训练,导致需要大量标注的声学数据进行训练。我们率先提出模块化的端到端模型训练框架。一个音频到音素的声学模型和一个音素到词语的语言模型分别基于声学和语言数据进行训练,然后进行基于音素同步解码的声学和语言模型联合训练。实验显示,这一框架下训练得到的端到端模型在取得传统系统相似准确率的情况下,大幅降低了推测复杂度。

14.鸡尾酒会的序列建模

Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition.

By Zhehuai Chen, Jasha Droppo.

鸡尾酒会问题的解决需要声学模型具有强大的序列建模能力。我们在训练阶段为 PIT 模型添加了显式的序列依赖性,将语言模型信息融入 PIT 模型的组合决策过程中。实验结果显示,这两项技术的加入能够显著提升现有系统的准确率,与序列鉴别性训练和迁移学习相结合,能使最终系统的准确率提升 30%以上。

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2018年5月1日
下一篇 2018年5月1日

相关推荐