音频课程文档

文本到语音数据集

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

文本到语音数据集

文本到语音任务(也称为语音合成)带来了一系列挑战。

首先,就像之前讨论的自动语音识别一样,文本和语音之间的对齐可能很棘手。
然而,与 ASR 不同,TTS 是一个 一对多 映射问题,即相同的文本可以以多种不同的方式合成。想想您每天听到的语音中声音和说话风格的多样性 - 每个人用不同的方式说同一个句子,但它们都是有效和正确的!即使不同的输出(声谱图或音频波形)也可以对应于相同的真实情况。模型必须学习为每个音素、单词或句子生成正确的持续时间和时间,这可能具有挑战性,特别是对于长而复杂的句子。

接下来,是长距离依赖问题:语言具有时间方面,理解句子的含义通常需要考虑周围词语的上下文。确保 TTS 模型捕获并保留长序列的上下文信息对于生成连贯自然的语音至关重要。

最后,训练 TTS 模型通常需要文本和相应的语音记录对。最重要的是,为了确保模型可以为不同的说话人和说话风格生成听起来自然的语音,数据应包含来自多个说话人的多样化和有代表性的语音样本。收集此类数据成本高昂、耗时,并且对于某些语言来说是不可行的。您可能会想,为什么不直接使用为 ASR(自动语音识别)设计的数据集并将其用于训练 TTS 模型?不幸的是,自动语音识别 (ASR) 数据集不是最佳选择。使其对 ASR 有益的特征(例如过度的背景噪音)在 TTS 中通常是不受欢迎的。能够从嘈杂的街道录音中挑出语音固然很好,但如果您的语音助手在背景中有汽车喇叭声和施工声时回复您,那就没那么好了。尽管如此,一些 ASR 数据集有时可用于微调,因为找到高质量、多语言和多说话人的 TTS 数据集可能非常具有挑战性。

让我们探索一些您可以在 🤗 Hub 上找到的适用于 TTS 的数据集。

LJSpeech

LJSpeech 是一个数据集,包含 13,100 个英语音频剪辑及其相应的转录。该数据集包含一位说话人朗读 7 本英语非小说书籍的句子录音。LJSpeech 通常用作评估 TTS 模型的基准,因为它具有高音频质量和多样化的语言内容。

多语言 LibriSpeech

Multilingual LibriSpeech 是 LibriSpeech 数据集的多语言扩展,LibriSpeech 数据集是一个大规模的英语有声读物集合。Multilingual LibriSpeech 通过包含其他语言(如德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语)对此进行了扩展。它为每种语言提供音频录音以及对齐的转录。该数据集为开发多语言 TTS 系统和探索跨语言语音合成技术提供了宝贵的资源。

VCTK (语音克隆工具包)

VCTK 是一个专门为文本到语音研究和开发设计的数据集。它包含 110 位具有不同口音的英语说话人的录音。每位说话人朗读约 400 个句子,这些句子选自报纸、《彩虹段落》以及用于语音口音档案的引出段落。VCTK 为训练具有不同声音和口音的 TTS 模型提供了宝贵的资源,从而实现更自然和多样化的语音合成。

Libri-TTS/ LibriTTS-R

Libri-TTS/ LibriTTS-R 是一个多说话人的英语语料库,大约包含 585 小时的英语朗读语音,采样率为 24kHz,由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的协助下准备。LibriTTS 语料库专为 TTS 研究而设计。它源自 LibriSpeech 语料库的原始材料(来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件)。与 LibriSpeech 语料库的主要区别如下

  • 音频文件的采样率为 24kHz。
  • 语音在句子间断处分割。
  • 包括原始文本和规范化文本。
  • 可以提取上下文信息(例如,相邻句子)。
  • 排除具有明显背景噪音的 utterances。

为 TTS 组装一个好的数据集并非易事,因为这样的数据集必须具备几个关键特征

  • 高质量和多样化的录音,涵盖广泛的语音模式、口音、语言和情感。录音应清晰、无背景噪音,并表现出自然的语音特征。
  • 转录:每个音频录音都应附有其相应的文本转录。
  • 语言内容的多样性:数据集应包含多样化的语言内容,包括不同类型的句子、短语和单词。它应涵盖各种主题、类型和领域,以确保模型能够处理不同的语言环境。

好消息是,您不太可能从头开始训练 TTS 模型。在下一节中,我们将研究 🤗 Hub 上提供的预训练模型。

< > 在 GitHub 上更新