音频课程文档
第六单元。从文本到语音
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
第六单元。从文本到语音
在上一单元中,您学习了如何使用 Transformer 将口语语音转换为文本。现在让我们反过来看看如何将给定的输入文本转换为听起来像人类语音的音频输出。
我们在本单元中学习的任务称为“文本到语音”(TTS)。能够将文本转换为可听的人类语音的模型具有广泛的潜在应用
- 辅助应用:考虑一下可以利用这些模型使视障人士能够通过声音媒介访问数字内容的工具。
- 有声读物旁白:将书面书籍转换为音频形式,使文学作品更容易被喜欢听书或阅读有困难的人接受。
- 虚拟助手:TTS 模型是 Siri、Google Assistant 或 Amazon Alexa 等虚拟助手的基本组成部分。一旦他们使用分类模型捕捉到唤醒词,并使用 ASR 模型处理您的请求,他们就可以使用 TTS 模型来回复您的询问。
- 娱乐、游戏和语言学习:为您的 NPC 角色配音,叙述游戏事件,或通过正确发音和单词和短语语调的示例帮助语言学习者。
这些只是一些例子,我相信您可以想象更多!然而,能力越大,责任越大,重要的是要强调 TTS 模型有可能被用于恶意目的。例如,如果有足够的语音样本,恶意行为者可能会创建令人信服的虚假录音,从而导致在未经授权的情况下使用某人的声音进行欺诈或操纵。如果您计划收集数据以微调自己的系统,请仔细考虑隐私和知情同意。语音数据应在获得个人明确同意的情况下获取,确保他们了解其声音在 TTS 系统中使用的目的、范围和潜在风险。请负责任地使用文本到语音技术。
您将学到什么以及构建什么
在本单元,我们将讨论
< > 在 GitHub 上更新