音频课程文档

第 6 单元. 从文本到语音

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

第六单元. 从文本到语音

在上一单元中,你学习了如何使用 Transformers 将口语语音转换为文本。现在让我们反过来看看如何将给定的输入文本转换为听起来像人类语音的音频输出。

我们将在本单元中研究的任务称为“文本到语音”(TTS)。能够将文本转换为可听人类语音的模型具有广泛的潜在应用

  • 辅助应用:思考那些可以利用这些模型,使视力障碍者通过声音媒介访问数字内容的工具。
  • 有声书旁白:将书面书籍转换为音频形式,使文学作品更容易被喜欢听书或阅读有困难的人士所接触。
  • 虚拟助手:TTS 模型是 Siri、Google Assistant 或 Amazon Alexa 等虚拟助手的基本组成部分。一旦它们使用分类模型捕捉到唤醒词,并使用 ASR 模型处理你的请求,它们就可以使用 TTS 模型来回应你的查询。
  • 娱乐、游戏和语言学习:为你的 NPC 角色配音,叙述游戏事件,或帮助语言学习者了解单词和短语的正确发音和语调示例。

这些只是几个例子,我确信你可以想象出更多!然而,能力越大,责任越大,必须强调的是,TTS 模型有可能被用于恶意目的。例如,如果拥有足够的语音样本,恶意行为者可能会创建令人信服的虚假录音,导致未经授权地使用某人的声音进行欺诈或操纵。如果你计划收集数据以微调你自己的系统,请仔细考虑隐私和知情同意。语音数据应在获得个人明确同意的情况下获取,确保他们了解其声音在 TTS 系统中使用的目的、范围和潜在风险。请负责任地使用文本到语音技术。

你将学到什么以及你将构建什么

在本单元中,我们将讨论

< > 在 GitHub 上更新