前情提要:之前在玩声音模型的时候想着哪个模型效果好一点 自己之前尝试用过了so-vits-svc3.0(唱歌音色转换) rvc(实时变声 音色转换) indextts(tts模型) cosyvoice(tts模型)

要说玩到最后还是cosyvoice稍微称心一点 他主要有三点好

  1. 它是tts模型不需要自己丢音频进去转换,丢文字进去就能生成音频,同时不像gptsovits那样生成音频还要找专门的模型,没找到就自己找音频数据集来训练 他这个只需要3s左右的参考音频就能复刻角色音色出来 很适合复刻那种冷门角色的音色
  2. 占用显存比indextts2要小跑的还快,我自己4070m本地跑的大概是10s能跑10s音频 indextts2是2分钟跑5s音频(不排除是爆显存的影响)
  3. 配置起来相对简单 配indextts2需要使用uv 而uv下载有的库经常出问题 对windows支持性不太好,得转wsl2/linux才能跑起来

然后我后面就想着既然他是可以支持零样本复制(不需要专门模型)的,那理论上来说改改就能变成一个有声小说/角色对话/角色独白的创作器,丢进去文本设置好后就能一键跑通,今天可以让孙笑川念经,明天就可以让蔡徐坤鸡叫 后天就可以前一句胖虎:小夫我要进来了 后一句小夫:啊不要 这样的多角色语言配置功能

于是就做出来这么一个玩意 套了一层PyQt5 Fluent-Widget的皮

这个工具很适合有声书/角色独白/角色对话的制作,在语音音频配置界面设置好对应的参考语料后去主界面文本编辑部分打上对应颜色的标签,然后转成计划任务一键运行,然后遇到不满意的生成结果可以改变seed重新运行直到满意为止,最后点击合成能直接导出音频合集

然后放一个视频链接介绍先 [完全开源]CosyvoiceDesktop 一款面向创作者的多功能桌面端有声小说生产力工具
这是仓库链接CosyVoiceDesktop 我在这里不要脸的求各位大佬施舍一个star吧
另外我做了一个一键包放到百度网盘里面了(链接在上面仓库的readme里面) 可以直接在windows上面运行(最好要有有NVIDIA显卡 但50系显卡因为cuda版本太高不支持,没有NVIDIA显卡用cpu也能跑就是慢了点而已),然后也可以尝试直接将那个py文件复制到cosyvoice的原目录里面跑