我在Unreal Engine中开发了一套处理全 NPC 对话循环系统。通过这个系统,NPC可以根据你对对话的输入生成相应的响应,通过语音和脸上的表情表现出来。所有这一切都是同时进行的,而不需要等待 LiveLink 加载整个过程。

我要展示的主要内容是唇Sync(嘴唇同步)。我废除了原始后端,并从头开始重建脸部动画管道。目前我欢迎每一位朋友的关心和反馈。

在此基础上,我还在尝试着开发“情绪层次”,当 AI 响应时,可以在文本中留下标签,例如 [laughing], [sad], [angry]。这些标签会被解析成结合了情绪权重,并注入到面部rig中,这样嘴唇的表达就可以在说出的每句话中改变。如果没有标签系统,系统也可以根据 NPC 对话的文本内容来判断 NPC 态度和情绪。NPC 的表情将会随着 NPC 对话的内容而变化。目前这是一个新的系统,仍然在测试阶段,但是已经有了点进展。这个系统目前已经连接上了 ElevenLabs 的语音,但是未来我们计划逐步替换所有管道中使用的技术栈,包括 LLM、TTS、唇Sync 和情绪识别。我们的目标是让每个部分都可以替换掉。

这个视频里记录了我对 NPC 的三分钟无套磁的对话测试。只是我与 NPC 的普通对话,来展示NPC嘴唇随着我说话而变化。对那些正在做类似工作的人,我们也诚挚地邀请各位来评估一下这个视频。

我们关注以下几点: 这个Lipsync看看效果如何?嘴唇是否能够跟着实际对话进行? 这些情绪动画是否增加了对话的可读性,还是会分散注意力?* 如果你是项目开发者,使用这个系统时会控制哪些因素,得到更好的体验?

这个系统还在处于早期阶段。我们计划将 Alpha 版本开放来让大家可以实际操作和进行更多的测试。目前我们正在收集每个朋友的意见,为我们的工作提供必要的反馈和支持。