自动配音或将成为现实？

当前，字节跳动正探索语音本地化。2021年10月，一篇名为《神经配音：根据脚本为无声视频配音》的论文探讨了通过机器合成的人类语言是否可以具备“专业配音演员的配音能力”。

语音合成（TTS）与自动视频配音都是为了生成可理解的语音，但只靠语音合成不足以达成目标，因为语音合成只使用文本作为输入，不太可能与视频完全同步。

另一方面，神经配音使用基于图像的扬声器嵌入模块，允许它产生与扬声器面部特征（例如性别、年龄）一致的语音。

结果显示，由同一讲话者的图像生成的语料形成了一个密集的集群，而代表每位讲话者的集群是相互分离的。此外，不同性别讲话者的面部图像合成的语音之间存在明显差异（如下图所示）。结论便是，神经配音器可以利用面部图像来改变生成的语音的音色。

讲话者嵌入可视化

（左上、右下分别为12名男性、12名女性所得结果）

字节跳动旗下火山翻译产品经理刘坚在同济大学讲座中表示，现阶段影视行业寻找相似音色的配音员存在一定难度，而字节跳动通过外语音色模拟、肖像风格迁移，已经能够实现输出后的译后视频保留人物的音色特征，且口型与目标语言匹配，营造出自然的影片效果。

神经配音器无疑与上述音色模拟、口型修正等功能密切相关，无论是在技术界还是影视界，其发展意义重大。相信通过多方向探索，神经配音器将得以完善，自动配音或将成为现实。

名词对照：

TikTok: 抖音

ByteDance: 字节跳动

Neural Dubber: 神经配音器

Automatic video dubbing (AVD): 自动视频配音

Text-to-speech (TTS): 语音合成技术

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！