音频课程文档

文本转语音数据集

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

文本转语音数据集

文本转语音任务(也称为语音合成)面临着一系列挑战。

首先,就像在前面讨论的自动语音识别中一样,文本和语音之间的对齐可能会很棘手。
但是,与 ASR 不同,TTS 是一个**一对多**映射问题,即相同的文本可以用多种不同的方式合成。想想您日常生活中听到的语音中各种各样的声音和说话风格 - 每个人都有不同的方式说出同一个句子,但它们都是有效的,正确的!即使不同的输出(频谱图或音频波形)也可能对应于相同的真实情况。模型必须学习为每个音素、单词或句子生成正确的持续时间和时间,这可能具有挑战性,尤其是在长而复杂的句子中。

接下来,存在长距离依赖问题:语言具有时间方面,理解句子的含义通常需要考虑周围词语的上下文。确保 TTS 模型捕获并保留长序列中的上下文信息对于生成连贯且自然的声音语音至关重要。

最后,训练 TTS 模型通常需要文本对和相应的语音录音。最重要的是,为了确保模型能够生成听起来自然的语音,针对各种说话者和说话风格,数据应该包含来自多个说话者的多样化和代表性语音样本。收集这样的数据既昂贵又耗时,而且对于某些语言来说是不可能的。您可能会想,为什么不直接使用为 ASR(自动语音识别)设计的数据集来训练 TTS 模型呢?不幸的是,自动语音识别 (ASR) 数据集并不是最佳选择。那些使 ASR 获益的功能,例如过多的背景噪音,通常在 TTS 中是不受欢迎的。能够从嘈杂的街道录音中识别出语音很棒,但如果您的语音助手在有汽车喇叭声和施工噪音的情况下回复您,那就不是那么好了。尽管如此,某些 ASR 数据集有时可以用于微调,因为找到高质量、多语言和多说话者的 TTS 数据集可能非常具有挑战性。

让我们探索一些适用于 TTS 的数据集,您可以在 🤗 Hub 上找到这些数据集。

LJSpeech

LJSpeech 是一个数据集,包含 13,100 个英语音频片段,以及它们相应的转录文本。该数据集包含单一说话者朗读 7 本英文非虚构书籍中句子的录音。LJSpeech 由于其高音频质量和多样的语言内容,通常用作评估 TTS 模型的基准。

多语言 LibriSpeech

多语言 LibriSpeech 是 LibriSpeech 数据集的多语言扩展,LibriSpeech 数据集是一个大型的英文有声读物集合。多语言 LibriSpeech 通过包含其他语言来扩展它,例如德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语。它提供了音频录音以及每种语言的对齐转录文本。该数据集为开发多语言 TTS 系统和探索跨语言语音合成技术提供了宝贵的资源。

VCTK(语音克隆工具包)

VCTK 是一个专门为文本转语音研究和开发设计的数据集。它包含 110 位说英语的人的音频录音,他们说着不同的口音。每位说话者都会朗读大约 400 个句子,这些句子是从报纸、彩虹段落以及用于语音口音档案的诱导段落中选取的。VCTK 为训练具有各种声音和口音的 TTS 模型提供了宝贵的资源,从而能够实现更自然和多样化的语音合成。

Libri-TTS / LibriTTS-R

Libri-TTS / LibriTTS-R 是一个多说话者的英语语料库,包含大约 585 小时的英语有声读物,采样率为 24kHz,由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的帮助下准备。LibriTTS 语料库旨在用于 TTS 研究。它源自 LibriSpeech 语料库的原始材料(来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件)。与 LibriSpeech 语料库的主要区别列于下面

  • 音频文件采样率为 24kHz。
  • 语音在句子断点处分割。
  • 包括原始文本和规范化文本。
  • 可以提取上下文信息(例如,相邻句子)。
  • 排除具有明显背景噪音的语句。

组建一个适合 TTS 的良好数据集并非易事,因为这样的数据集必须具备几个关键特征

  • 高质量且多样化的录音,涵盖各种语音模式、口音、语言和情绪。录音应该清晰,没有背景噪音,并展现自然的语音特征。
  • 转录:每个音频记录都应附带其相应的文本转录。
  • 语言内容的多样性:数据集应包含各种语言内容,包括不同类型的句子、短语和单词。它应该涵盖各种主题、类型和领域,以确保模型能够处理不同的语言环境。

好消息是,你不太可能需要从头开始训练 TTS 模型。在下一节中,我们将研究 🤗 Hub 上可用的预训练模型。