Picovoice Cobra 语音活动检测 (VAD) 引擎最近公开发布了,它可以支持树莓派、BeagleBone、NVIDIA Jetson Nano、Linux 64 位、macOS 64 位、Windows 64 位、Android、iOS 和支持WebAssembly的各类 络浏览器。该引擎也可以支持其他基于 Cortex-M 和 Cortex-A 的 SoC,不过仅限于企业客户。
Picovoice 还为树莓派提供了自定义唤醒词的检测,它可以简单快速地进行基于Web的训练、也可进行离线语音识别,之后甚至还会将他们的语音引擎移植到 Arduino上。Cobra 语音活动检测其实是语音活动检测的一新版本,与其他语音活动检测一样,主要目的都是为了检测音频流中是否存在人声。
PicoVoice Cobra语音活动检测
Picovoice Cobra 的资料可以在 Github上找到,但请注意,它不是一个开源解决方案,而是为各种目标提供了libpv_cobra.so的动态库,该动态库提供带有C、Python、Rust 和 WebAssembly 的头文件和演示,以及适用于 iOS 和 Android 的演示应用程序。
最简单快捷的试用方式是通过公告中的嵌入示例进行演示。只需单击麦克风,然后发出一些声音,看看它的反应如何。
相关视频连接:Picovoice Cobra语音活动检测引擎,优于Google WebRTC语音活动检测 – CNX Software中文站
演示时我们会发现,即使是在嘈杂的环境中,非可听语音的噪音应该都被过滤掉了。当然这个过滤是要在一定限度内的。
该公司还发布了语音活动基准测试,用来与通过py-webrtcvad Python程序运行的Google WebRTC语音活动检测进行比较。下图就显示了信噪比在 0dB 的情况下,WebRTC 和 Cobra 引擎的接收器操作特性(ROC)曲线。该图片由 Picovoice 提供。
Picovoice Cobra对比Google WebRTC
这个图表其实有点让人困惑,但我们需要知道的是结论就是:曲线下方的区域越大越好。
据说Picovoice 的 Cobra 语音活动检测引擎效率也很高,在树莓派Zero的实时率(Real-time factor常用于度量自动语音识别系统解码速度的值)是0.05,在更强大的英特尔酷睿 i7-1185G7 Tiger Lake 笔记本电脑上是0.0006。
更多优质文章推荐:
1.QuickLogic可听式参考设计模块,支持Alexa语音启动设备 – CNX Software中文站
2.SU-10A,带有扬声器、UART连接器的离线语音识别MCU模块 – CNX Software中文站
3.Google发布开源超低码率语音压缩编码器—Lyra — CNX SOFTWARE中文站—嵌入式开发者的知识库!
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!