现在,给视频人物“喂”一段音频,他就能自己对口型了,就像这样:
这是一种利用音频生成视频人物口型的新方法,出自慕尼黑工业大学Wojciech Zielonka的硕士论文。
用这种新方法对口型,只需2-3分钟就能够训练目标角色,生成的视频保留了目标角色的说话风格;
新方法与Neural Voice Puppetry、Wav2Lip、Wav2Lip GAN的生成效果,对比起来是这样的:
在保持较低唇部误差的同时,生成图像质量高于其他方法。
原理简介
首先,将输入音频转换为MFCC(梅尔频率倒谱系数),并进行特征提取。
利用投影 络进行近似转换,将提取的特征嵌入到不同的低维空间。
为了顺利生成视频,研究人员还引入了一维卷积 络和一个衰减模块,以保持时间上的连贯性。
将3DMM的 格输入变形 络,该 络能通过音频信号产生优化的3D形状。
再将其栅格化传递给色彩 络,每个三维点经过位置编码,并与音频嵌入相关联,最终通过色彩 络输出图像。
最后,用2D膨胀卷积 络建立的组成 络,将渲染的人脸被无缝地嵌入到背景中。
可以看到从3D形状到最终合成输出的效果:
这项研究采用了最小绝对值偏差(L1)和感知损失(VGG)这两个损失函数的组合。
先利用L1损失 络找到粗略图像,然后在训练过程中,通过VGG损失进行完善并学习细节。
性能如何?
研究人员使用数据集对模型进行了测试,数据集中共有6个人物。
其中,模型用于Krista和Obama时效果更好,生成图像与ground truth最为接近。
从左至右依次是原视频、配音视频、原声视频:
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!