带抑扬顿挫的AI语音表演-墙外贴吧

我花了点时间，可能花了大约8美元的积分在Elevenlabs。以下是一个我正在开发的冒险游戏的音频结果的剪辑。

我的游戏有一个多元化的演员阵容——埃及人、俄罗斯人、塞内加尔医生——他们都以他们的母语为主的英语口音说话。保持那些口音是音频中最困难的部分。

流水线：

创建声音 — ElevenLabs Voice Design：写一个角色描述，给出三个候选人，试听，推广保留者。关键是写设计样本文本，使其以角色母语为主的口音“出生”而不是后期倾斜。

问题 — eleven_v3说英语得很好，但在更长的行中会漂向中立/英国口音。对于定义了起源的演员阵容来说，这会杀死沉浸感。修复是堆栈：

锚定声音。
每行的初始引导 — 生成每行的句子为 [在母语中输入句子] → [长暂停] → [口音标记] → [英语]。说出阿拉伯语/俄语/法语后，会锁定音素空间；然后我检测静音并修剪引导以便玩家只听到英语。
本地脚本 — 在TTS输入中以阿拉伯字母书写阿拉伯单词和名字，以便它们在本地被发音（并重新锁定口音）。

长行仍然会漂移（~28个单词），所以我从来不会喂给长段落 — 每行都被分成≤22个单词，每个单词都重新引导，然后连接起来。这确实会在连接时产生一些问题，但我会进行单独的编辑。

当分段仍然失败时，修复是稳定性设置。低（0.3）是表达式的，但会游走，包括口音；高（0.8）会把它锁定得很牢，但会使交付平坦。顽固的行会被提升到0.8。对于问题行，我会生成0.3/0.6/0.8，然后选择。

其他部分：简洁的方括号方向标签（模型会读出长的标签），音量归一化以使VO在音乐上方，发音重写以修复混乱的单词。

这是文本文件和脚本击中API — 迭代试听。口音是一种多层次的防御，不是设置。

带抑扬顿挫的AI语音表演