在人工耳蜗中应用高级语音增强

在人工耳蜗中应用高级语音增强

对于世界上大约 4.66 亿耳聋或听障人来说,无法轻松获得无障碍服务可能是参与日常口语对话的障碍。虽然助听器可以帮助缓解这种情况,但对许多人来说,仅仅放大声音是不够的。可能可用的另一种选择是人工耳蜗(CI),这是一种电子设备,可通过手术插入内耳的一部分,称为耳蜗,并通过外部声音处理器电刺激听觉神经。虽然许多拥有这些人工耳蜗的人可以学会将这些电刺激解释为可听语音,但在嘈杂的环境中,聆听体验可能非常多样化,尤其具有挑战性。

现代人工耳蜗通过外部声音处理器计算的脉动信号(即离散刺激脉冲)驱动电极。CI 领域仍然面临的主要挑战是如何最好地处理声音——将声音转换为电极上的脉冲——使它们更容易被用户理解。最近,为了促进这个问题的进展,工业界和学术界的科学家组织了一次CI 黑客马拉松,让这个问题得到更广泛的想法。

在这篇博文中,我们分享了探索性研究,证明语音增强预处理器(特别是噪声抑制器)可用于 CI 处理器的输入,以增强用户在嘈杂环境中对语音的理解。我们还在CI Hackathon 的条目中讨论了我们如何建立在这项工作的基础上,以及我们将如何继续发展这项工作。

通过噪声抑制改进 CI

2019 年,一个小型内部项目展示了在 CI 处理器的输入处抑制噪声的好处。在这个项目中,参与者聆听了 60 个预先录制和预处理的音频样本,并根据他们的聆听舒适度对它们进行了排名。CI 用户使用其设备现有的生成电脉冲的策略收听音频。

如下所示,当使用噪声抑制处理带有噪声的语音(最轻的条)时,聆听舒适度和可懂度通常都会增加,有时会显着增加。

对于 CI 黑客马拉松,我们以上述项目为基础,继续利用我们对噪声抑制器的使用,同时还探索了一种计算脉冲的方法

处理方法概述

黑客马拉松考虑了具有 16 个电极的 CI。我们的方法将音频分解为 16 个重叠的频段,对应于耳蜗中电极的位置。接下来,因为声音的动态范围很容易跨越多个数量级,比我们预期的电极表示的要多,我们通过应用“每通道能量归一化”(PCEN)积极压缩信号的动态范围。最后,范围压缩的信号用于创建电图(即 CI 在电极上显示的内容)。

此外,黑客马拉松要求提交的作品在多个音频类别中进行评估,包括音乐,这是 CI 用户享受的一种重要但众所周知的困难的声音类别。然而,语音增强 络被训练为抑制非语音声音,包括噪声和音乐,因此我们需要采取额外措施来避免抑制器乐(请注意,一般而言,某些用户在某些情况下可能更喜欢音乐抑制) )。为此,我们创建了原始音频与噪声抑制音频的“混合”,以便足够多的音乐通过以保持可听性。我们实时将原始音频混合的比例从 0% 更改为 40%(如果所有输入都被估计为语音,则为 0%,YAMNet分类器在每约 1 秒的音频窗口上进行分类,无论输入是语音还是非语音。

Conv-TasNet 语音增强模型

为了实现抑制非语音声音(例如噪声和音乐)的语音增强模块,我们使用了Conv-TasNet模型,它可以分离不同种类的声音。首先,原始音频波形被转换并处理成神经 络可以使用的形式。该模型使用可学习的分析转换来转换输入音频的 2.5 毫秒短帧,以生成针对声音分离优化的特征。然后, 络从这些特征中生成两个“掩码”:一个掩码用于语音,一个掩码用于噪声。这些掩码表示每个特征对应于语音或噪声的程度。通过将掩码与分析特征相乘,将合成变换应用回音频域帧,并将生成的短帧拼接在一起,将分离的语音和噪声重建回音频域。作为最后一步,语音和噪声估计由一个混合一致性层,通过确保它们与原始输入混合波形相加来提高估计波形的质量。

该模型既具有因果关系又具有低延迟:对于每 2.5 毫秒的输入音频,该模型会产生对分离的语音和噪声的估计,因此可以实时使用。对于黑客马拉松,为了展示在未来硬件中增加计算能力的可能性,我们选择使用具有 290 万个参数的模型变体。这个模型太大了,无法在今天的 CI 中实际实现,但展示了未来更强大的硬件可以实现什么样的性能。

聆听结果

当我们优化模型和整体解决方案时,我们使用黑客马拉松提供的声码器(需要固定的电脉冲时间间隔)来生成模拟 CI 用户可能感知到的音频。然后,我们作为典型的听力用户进行了盲 AB 听力测试。

听听下面的声码器模拟,当输入声音不包含太多背景噪声时,重建声音中的语音——来自处理电图的声码器——是相当可理解的,但仍有提高语音清晰度的空间。我们提交的作品在噪音语音类别中表现良好,总体上获得第二名。

质量的一个瓶颈是刺激脉冲的固定时间间隔牺牲了音频中的精细时间结构。改变处理以产生定时到滤波后的声音波形中的峰值的脉冲,捕捉到更多关于声音的音调和结构的信息,而不是传统植入刺激模式中表示的信息。

重要的是要注意,第二个声码器输出对于真正的 CI 用户听起来有多好过于乐观。例如,这里使用的简单声码器不能模拟耳蜗中的电流传播如何模糊刺激,从而更难解析不同的频率。但这至少表明保留精细时间结构是有价值的,并且电图本身不是瓶颈。

理想情况下,所有处理方法都将由广泛的 CI 用户评估,电图直接在他们的 CI 上实现,而不是依赖声码器模拟。

结论和合作呼吁

我们计划在两个主要方向上跟进这一经验。首先,我们计划探索噪声抑制在其他听力无障碍模式中的应用,包括助听器、转录和振动触觉替代。其次,我们将深入研究人工耳蜗电图模式的创建,利用行业标准的常见 CIS(连续交错采样)模式中不包含的精细时间结构。根据Louizou 的说法:“鉴于他们接收到的光谱信息有限,一些单通道患者如何表现得如此出色仍然是一个难题”。因此,使用精细的时间结构可能是关键的一步 以实现改进的 CI 体验。

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2022年1月15日
下一篇 2022年1月15日

相关推荐