当试着理解类似问题时,很多帖子都没有准确表述,而且只会引起评论区关于“ChatGPT 之前AI就存在了吧,到底在问什么”的议论。

我知道文字转录是AI的一种,我只是想寻找在“AI”成为公司巨星词汇并且几乎所有文字转录服务都使用新兴技术之前开发的旧版文字转录。

我特别想找到使用之前类型的方法来制作文字转录的旧软件。这并不需要声音与人类的声音100%相似,我只想体验一下更具个性化的旧式文字转录。比如,微软的SAM,和使用人録音片段的Vocaloid。声音可能并不完美,但是我也就罢了,我很喜欢这种声音,因为我正在寻找这样的风格。

我怀疑新型的文字转录技术是使用预先训练的机器学习来学习词语的发音,这个训练过程比人工发音复杂许多,但是新型的TTS是因为新型机器学习方法而变得极为简单。新型TTS不需要大量的录音数据,不至于导致过多不常用词语。因此当新型TTS的声音缺失部分时,它们可以根据大量录音数据补充。

我知道Ellen Labs是大多数文字转录相关问题推荐的第一个方案,但我不信任那些运用付费系统的AI,我不知道他们是否是真正可靠的公司。

我并不是期望展开新型AI的辩论。这只是一次提醒我不需要你推荐任何新的TTS类型。

我已经在谷歌上搜索了数个小时,阅读了各种类似“最佳TTS服务2021?”的文章,唯一找到我想要的的是Microsoft SAM的开源版本,以及一个2016年创建的软件。但是这些软件基本都缺乏个人化的选择或使用特定的音调发音声音,我想要的不是一般声音,只是因为这只是我游戏概念的一部分。

很多旧式的TTS软件都只有男性声音,这对我来说是一个严重的限制,就算我使用SAM或者另一个这样的程序来产生声音并且修改音效来更容易实现想要的声音特征。

我只是个人偏好而已。如果别人喜欢新型AI的产品的完全没问题,但我不喜欢。

我想表明开源版本会很好,如果是一次性收费的话我可能会使用,但是任何使用付费系统的服务我都不会使用,不管多便宜。