它会获取一个文本并简化它到一个小的token集合,以便后面可以用它们作为声音来播放并构建一个“说话”的效果。目前我自己编写了12种声音,包括僵尸、苍蝇、机器人等,还有为什么不编写一个打字键盘呢,如果需要的话。语言定义(目前20种)提供了更好的token化映射,并且也可以使用语法来在播放一个东西的同时显示另一个东西,特别适用于中文、印地语等特殊字符。添加一个新的声音相对容易,只需要录制68个token。
我几乎完成了,最差的TTS,但它很快、很小、很有趣。故意胡乱的,但我认为它很有吸引力。
它会获取一个文本并简化它到一个小的token集合,以便后面可以用它们作为声音来播放并构建一个“说话”的效果。目前我自己编写了12种声音,包括僵尸、苍蝇、机器人等,还有为什么不编写一个打字键盘呢,如果需要的话。语言定义(目前20种)提供了更好的token化映射,并且也可以使用语法来在播放一个东西的同时显示另一个东西,特别适用于中文、印地语等特殊字符。添加一个新的声音相对容易,只需要录制68个token。
评论 (0)