单元 6. 从文本到语音
在上一单元中,您学习了如何使用 Transformers 将口语转换为文本。现在让我们颠倒一下脚本,看看如何将给定的输入文本转换为听起来像人类语音的音频输出。
我们将在此单元中学习的任务称为“文本到语音”(TTS)。能够将文本转换为可听的人类语音的模型具有广泛的潜在应用
- 辅助应用程序:考虑可以利用这些模型的工具,使视障人士可以通过声音媒介访问数字内容。
- 有声读物叙述:将书籍转换为音频形式使那些喜欢听或阅读有困难的人更容易获得文学作品。
- 虚拟助手:TTS 模型是虚拟助手(如 Siri、Google 助手或亚马逊 Alexa)的基本组成部分。一旦他们使用分类模型捕捉到唤醒词,并使用 ASR 模型处理您的请求,他们就可以使用 TTS 模型来回应您的查询。
- 娱乐、游戏和语言学习:为您的 NPC 角色配音、叙述游戏事件,或帮助语言学习者学习单词和短语的正确发音和语调。
这些只是一些例子,我相信您可以想象更多!但是,能力越大,责任越大,重要的是要强调 TTS 模型有可能被用于恶意目的。例如,使用足够的语音样本,恶意行为者可能会创建令人信服的假音频录音,导致未经授权使用某人的声音用于欺诈目的或操纵。如果您计划收集数据来微调自己的系统,请仔细考虑隐私和知情同意。语音数据应在获得个人的明确同意后获得,确保他们了解其语音在 TTS 系统中的用途、范围和潜在风险。请负责任地使用文本到语音。
您将学到什么以及您将构建什么
在本单元中,我们将讨论