虎牙持续创新AI安全应用，行业首创直播实时消音系统

为了在直播场景内做到无延时，虎牙多巴胺AI技术团队对语音识别模型以及解码模块进行了大量优化，对每个语音片段的解码能够达到稳定一致的识别时间。“这很重要，因为音频片段解码时间的大幅波动，会导致违规音频漏出。在普通的2.1G主频CPU上，我们的实时率达到0.08，相当于1s音频只需要80ms就能识别出来”，虎牙AI消音技术负责人表示。

直播场景的复杂性较一般的语音识别场景要大，而复杂场景的识别准确率一直是业界难点。“准确率低会造成直播的大面积误消音，使用户的体验感降低，召回率低会导致漏出违规语音，为了得到高召回、高准确率的目标，虎牙多巴胺团队开发了基于直播场景的VAD算法、语音识别算法、后处理算法，同时收集了大量复杂场景的样本，进行算法迭代优化，使得我们在直播这种复杂场景下，也有较高的识别准确率以及召回率。另一方面，AI模型的优化仍然依赖样本校准工作，这是大量的、系统性、长期且细致的。”上述负责人表示。

资料显示，虎牙于2015年开始研发的“天眼”AI引擎，将人工智能、计算机视觉等前沿技术成果与互联内容安全相结合。该系统可针对不同场景赋能AI能力，实现智能识别(包含音视频、图像、文本)和业务风控的落地创新，让传统的内容安全工作更高效、更节省成本，并实现自动化风险预判。此外，“虎牙天眼内容安全SaaS解决方案”目前已于亚马逊云上线，实现了对络视听行业的赋能。

新闻线索爆料通道：应用市场下载“晨视频”客户端，进入“晨意帮忙”专题；或拨打晨视频新闻热线0731-85571188。

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

虎牙持续创新AI安全应用，行业首创直播实时消音系统

相关推荐