我花了点时间,可能花了大约8美元的积分在Elevenlabs。以下是一个我正在开发的冒险游戏的音频结果的剪辑。

我的游戏有一个多元化的演员阵容——埃及人、俄罗斯人、塞内加尔医生——他们都以他们的母语为主的英语口音说话。保持那些口音是音频中最困难的部分。

流水线:

创建声音 — ElevenLabs Voice Design:写一个角色描述,给出三个候选人,试听,推广保留者。关键是写设计样本文本,使其以角色母语为主的口音“出生”而不是后期倾斜。

问题 — eleven_v3说英语得很好,但在更长的行中会漂向中立/英国口音。对于定义了起源的演员阵容来说,这会杀死沉浸感。修复是堆栈:

  1. 锚定声音。

  2. 每行的初始引导 — 生成每行的句子为 [在母语中输入句子] → [长暂停] → [口音标记] → [英语]。说出阿拉伯语/俄语/法语后,会锁定音素空间;然后我检测静音并修剪引导以便玩家只听到英语。

  3. 本地脚本 — 在TTS输入中以阿拉伯字母书写阿拉伯单词和名字,以便它们在本地被发音(并重新锁定口音)。

长行仍然会漂移(~28个单词),所以我从来不会喂给长段落 — 每行都被分成≤22个单词,每个单词都重新引导,然后连接起来。这确实会在连接时产生一些问题,但我会进行单独的编辑。

当分段仍然失败时,修复是稳定性设置。低(0.3)是表达式的,但会游走,包括口音;高(0.8)会把它锁定得很牢,但会使交付平坦。顽固的行会被提升到0.8。对于问题行,我会生成0.3/0.6/0.8,然后选择。

其他部分:简洁的方括号方向标签(模型会读出长的标签),音量归一化以使VO在音乐上方,发音重写以修复混乱的单词。

这是文本文件和脚本击中API — 迭代试听。口音是一种多层次的防御,不是设置。