当前,字节跳动正探索语音本地化。2021年10月,一篇名为《神经配音:根据脚本为无声视频配音》的论文探讨了通过机器合成的人类语言是否可以具备“专业配音演员的配音能力”。
语音合成(TTS)与自动视频配音都是为了生成可理解的语音,但只靠语音合成不足以达成目标,因为语音合成只使用文本作为输入,不太可能与视频完全同步。
另一方面,神经配音使用基于图像的扬声器嵌入模块,允许它产生与扬声器面部特征(例如性别、年龄)一致的语音。
结果显示,由同一讲话者的图像生成的语料形成了一个密集的集群,而代表每位讲话者的集群是相互分离的。此外,不同性别讲话者的面部图像合成的语音之间存在明显差异(如下图所示)。结论便是,神经配音器可以利用面部图像来改变生成的语音的音色。
讲话者嵌入可视化
(左上、右下分别为12名男性、12名女性所得结果)
字节跳动旗下火山翻译产品经理刘坚在同济大学讲座中表示,现阶段影视行业寻找相似音色的配音员存在一定难度,而字节跳动通过外语音色模拟、肖像风格迁移,已经能够实现输出后的译后视频保留人物的音色特征,且口型与目标语言匹配,营造出自然的影片效果。
神经配音器无疑与上述音色模拟、口型修正等功能密切相关,无论是在技术界还是影视界,其发展意义重大。相信通过多方向探索,神经配音器将得以完善,自动配音或将成为现实。
名词对照:
TikTok: 抖音
ByteDance: 字节跳动
Neural Dubber: 神经配音器
Automatic video dubbing (AVD): 自动视频配音
Text-to-speech (TTS): 语音合成技术
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!