大家好,
我们正在开发一个TTS(语音合成)Unity Asset,目标是将与角色语音和文本语音流程相关的所有内容整合到一个可调用的模块系统中。
我们的第一个目标很简单:在Unity中生成离线语音,并在运行时暴露音素时长数据,以便角色可以实际使用生成的声线进行动画和逻辑,而不是仅仅播放音频片段。
随着时间的推移,它变得越来越大。目前它包括:
离线设备语音合成
语音在Unity中本地运行,不需要服务器或互联网连接。
实时音素时长
系统在运行时提供音素时长数据,可以用于唇-sync、动画或游戏逻辑。
实时唇-sync
一个专门的管道调度音素,混合viseme权重,并驱动与生成的语音同步的口和面部运动。
模块化角色系统
有一个与AvatarX角色兼容的角色整合层,但它不是为了锁定用户在一个角色格式上。它可以使用Blendshapes或自定义驱动器驱动人形角色。
面部rig和表情系统
还有一个可选的系统,用于在唇-sync之上添加面部姿势、情绪和微表情。
想法是有人可以只使用TTS部分,或者将其与唇-sync结合,或者进一步将其连接到角色和面部动画。
我们还在同一方向上积极添加更多子系统。例如,我们正在为ASR和LLM集成准备新的模块,以便系统可以更接近一个完整的声线管道,用于AI NPC、数字人、助手、视觉小说、教育角色和交互式模拟。
它支持移动、桌面和web构建,包括Android、iOS、WebGL、Windows、macOS和Linux。核心系统默认是离线的,并使用Unity的设备AI推理包。
还有Windows和macOS示例构建在页面上,因此人们可以在购买之前测试运行时行为。
我很好奇这里的人们如何在现在构建AI角色语音管道。您是否正在手动连接LLM + TTS + 唇-sync、使用云服务、本地模型、预生成的声线、还是仍然避免使用声线,因为管道很烦人?
评论 (0)