资讯
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

一个可创建逼真说话人脸动画的模型


图片来源:Credit: Biswas et al.
近年来,计算机生成的动物和人类动画变得越来越具体和逼真。尽管如此,制作角色说话时的面部动画仍是一项关键挑战,因为它通常需要组合一系列不同的音频和视频元素。
印度TCS Research的一个计算机研究团队最近创建了一个新模型,可以生成高度逼真的说话面部动画。在动画中,音频记录能与角色的头部动作相结合。他们于ICVGIP2021 (第十二届印度计算机视觉、图形和图像处理会议)上发表的论文中介绍了该模型,它可用于创建更加逼真的虚拟人物、数字助理和动画电影。
“为了获得更愉快的观感,感到真实至关重要,尽管最近的研究取得了进展,但生成逼真的说话面孔仍然是一个具有挑战性的研究问题,”进行这项研究的研究人员之一 ,Brojeshwar Bhowmick告诉技TechXplore,“除了准确的唇部同步,逼真的人脸动画还需要其他反映真实性的特征,例如自然的眨眼和头部运动,还有保持任意目标人脸的身份信息。”

图片来源:CC0 Public Domain
目前大多数语音驱动生成面部动画的方法都专注于确保嘴唇运动和录制的语音之间的同步良好,保持角色的身份并确保它偶尔眨眼。其中一些方法还试图产生逼真的头部运动,这主要是通过模仿在一个简短的训练视频中人类说话者的动作来实现的。
“这些方法从训练视频中推断出头部运动,而这可能与当前的语音内容不相关,因此该方法对于包含长时间演讲的动画来说产出的结果真实性不高,”Bhowmick说。“一般来说,头部运动很大程度上取决于当前时间段的语音韵律信息。”
过去的研究发现,说话者的头部运动与其声音的音高和音强之间存在很强的相关性。这些发现启发了Bhowmick和他的同事们创造了一种新方法,该方法可以为面部动画生成头部动作,以反映角色的声音和他/她所说的内容。
在他们之前的一篇论文中,研究人员提出了一种基于生成对抗网络(GAN)的架构,该架构可以生成逼真的说话面部的动画。虽然这种技术很有前途,但它只能生成说话者头部不动情况下的动画。
“我们现在开发了一个完整的、由语音驱动生成逼真面部动画的流程,我们通过设计一种分层方法来分开对运动和纹理的学习,生成具有准确口型同步、自然眨眼和逼真头部运动的说话面部视频,”Bhowmick说。“我们通过面部标志学习由语音驱动的运动,并使用这些标志来生成动画视频每帧的肌理细节。”
Bhowmick和他的同事创建的新模型可以有效地为动画人脸生成由语音驱动的、逼真的头部运动,且与说话者的声音特征和他/她所说的内容密切相关。就像他们过去创建的技术一样,这种新模型基于一种名为GAN的机器学习算法,GAN已被发现在生成人工内容方面非常有前途。该模型可以识别说话者正在谈论的内容以及他/她在特定时间段内的语调。随后,它使用这些信息来产生匹配和头部运动。
“我们的方法与专注于从目标对象的示例训练视频中生成针对特定于个人的谈话风格的方法有着根本上的不同,”Bhowmick说,“鉴于音频和头部运动之间的关系不是唯一的,我们的注意力机制试图了解局部音频特征对局部头部运动的重要性,使预测随着时间推移保持流畅,且不需要在测试时输入任何训练视频。我们还使用元学习来生成肌理,因为它有助于在测试时使用很少的图像快速适应未知的面孔。”
Bhowmick和他的同事在一系列基准数据集上评估了他们的模型,并比较它与过去开发的最先进技术的性能。他们发现该模型可以生成非常逼真的动画,且具有出色的嘴唇同步、自然的眨眼和语音连贯的头部运动。

图片来源:Xu Chen/ETH Zürich
“我们的工作朝着实现逼真的说话人脸动画的目标迈进了一步,这些动画可以被用于多种现实的应用程序,例如数字助理、视频配音或远程呈现,”Bhowmick补充说,“在后续研究中,我们计划将逼真的面部表情和情绪与唇形同步、眨眼和语音连贯的头部运动整合。”
翻译:王东岳
审校:王嘉钰
引进来源:techxplore
本文来自:中国数字科技馆
本文是中国数字科技馆(www.cdstm.cn)原创内容,转载请注明出处和作者,否则我们将依法追究侵权责任。
[责任编辑:环球科学]
分享到:
文章排行榜
©2011-2025 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号-1 京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20220319_1066396_taonews.html