自动配音或将成为现实?

当前,字节跳动正探索语音本地化。2021年10月,一篇名为《神经配音:根据脚本为无声视频配音》的论文探讨了通过机器合成的人类语言是否可以具备“专业配音演员的配音能力”。

语音合成(TTS)与自动视频配音都是为了生成可理解的语音,但只靠语音合成不足以达成目标,因为语音合成只使用文本作为输入,不太可能与视频完全同步。

另一方面,神经配音使用基于图像的扬声器嵌入模块,允许它产生与扬声器面部特征(例如性别、年龄)一致的语音。

结果显示,由同一讲话者的图像生成的语料形成了一个密集的集群,而代表每位讲话者的集群是相互分离的。此外,不同性别讲话者的面部图像合成的语音之间存在明显差异(如下图所示)。结论便是,神经配音器可以利用面部图像来改变生成的语音的音色。

讲话者嵌入可视化

(左上、右下分别为12名男性、12名女性所得结果)

字节跳动旗下火山翻译产品经理刘坚在同济大学讲座中表示,现阶段影视行业寻找相似音色的配音员存在一定难度,而字节跳动通过外语音色模拟、肖像风格迁移,已经能够实现输出后的译后视频保留人物的音色特征,且口型与目标语言匹配,营造出自然的影片效果。

神经配音器无疑与上述音色模拟、口型修正等功能密切相关,无论是在技术界还是影视界,其发展意义重大。相信通过多方向探索,神经配音器将得以完善,自动配音或将成为现实。

名词对照:

TikTok: 抖音

ByteDance: 字节跳动

Neural Dubber: 神经配音器

Automatic video dubbing (AVD): 自动视频配音

Text-to-speech (TTS): 语音合成技术

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2022年4月20日
下一篇 2022年4月20日

相关推荐