各位好,今天想跟大家分享我最近做的项目。一直对NVIDIA的audio2Face和Unreal Engine的动画模型质量不太满意,所以决定自己学着做。
这个模型可以接收一个音频片段并预测与其对齐的面部骨骼。它是在野外视频中训练的。
它的唇.sync还有一点儿粗糙,但完全可以改进。另外,在视频中它是在5秒音频片段上进行推理的,中间会有一个小空隙,所以请忽略Metahuman回归中立姿势的地方。
大家对模型的质量和它是否可以集成到工作流中有何看法?感谢任何的反馈。
各位好,今天想跟大家分享我最近做的项目。一直对NVIDIA的audio2Face和Unreal Engine的动画模型质量不太满意,所以决定自己学着做。
这个模型可以接收一个音频片段并预测与其对齐的面部骨骼。它是在野外视频中训练的。
它的唇.sync还有一点儿粗糙,但完全可以改进。另外,在视频中它是在5秒音频片段上进行推理的,中间会有一个小空隙,所以请忽略Metahuman回归中立姿势的地方。
大家对模型的质量和它是否可以集成到工作流中有何看法?感谢任何的反馈。
评论 (0)