音频课程文档

文本到语音数据集

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

文本到语音数据集

文本到语音任务(也称为语音合成)面临着一系列挑战。

首先,就像前面讨论的自动语音识别一样,文本和语音之间的对齐可能很棘手。
然而,与 ASR 不同,TTS 是一个**一对多**的映射问题,即相同的文本可以用许多不同的方式合成。想想你日常生活中听到的语音中声音和说话风格的多样性——每个人说同一句话的方式都不同,但它们都是有效和正确的!即使是不同的输出(频谱图或音频波形)也可以对应相同的真实值。模型必须学习为每个音素、单词或句子生成正确的持续时间和时序,这可能具有挑战性,特别是对于长而复杂的句子。

其次,存在长距离依赖问题:语言具有时间性,理解句子的含义通常需要考虑周围词语的上下文。确保 TTS 模型在长序列中捕获并保留上下文信息对于生成连贯自然的语音至关重要。

最后,训练 TTS 模型通常需要文本和相应语音录音的配对数据。最重要的是,为了确保模型能够为各种说话者和说话风格生成自然的语音,数据应包含来自多个说话者的多样化且具有代表性的语音样本。收集此类数据成本高昂、耗时,并且对于某些语言来说是不可行的。你可能会想,为什么不直接使用为 ASR(自动语音识别)设计的数据集,并将其用于训练 TTS 模型呢?不幸的是,自动语音识别 (ASR) 数据集并不是最佳选择。使其对 ASR 有益的特征,例如过多的背景噪音,通常在 TTS 中是不受欢迎的。能够从嘈杂的街道录音中识别语音是很棒的,但如果你的语音助手在背景中有汽车喇叭声和施工噪音时回复你,那就不是那么回事了。尽管如此,一些 ASR 数据集有时对微调很有用,因为寻找高质量、多语言、多说话者的 TTS 数据集可能非常具有挑战性。

让我们探索一些适合 TTS 的数据集,你可以在 🤗 Hub 上找到它们。

LJSpeech

LJSpeech 是一个包含 13,100 个英语音频片段及其相应转录的数据集。该数据集包含一名说话者阅读 7 本英文非虚构书籍句子的录音。LJSpeech 因其高质量的音频和多样化的语言内容,常被用作评估 TTS 模型的基准。

多语言 LibriSpeech

多语言 LibriSpeech 是 LibriSpeech 数据集的多语言扩展,后者是一个大规模的英文有声读物集合。多语言 LibriSpeech 在此基础上增加了其他语言,如德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语。它提供每种语言的音频录音和对齐的转录。该数据集为开发多语言 TTS 系统和探索跨语言语音合成技术提供了宝贵的资源。

VCTK(语音克隆工具包)

VCTK 是一个专门为文本到语音研究和开发设计的数据集。它包含 110 位说不同口音英语的说话者的音频录音。每位说话者朗读大约 400 个句子,这些句子选自报纸、彩虹段落和用于语音口音档案的诱发段落。VCTK 为训练具有各种声音和口音的 TTS 模型提供了宝贵的资源,从而实现更自然和多样化的语音合成。

Libri-TTS/ LibriTTS-R

Libri-TTS/ LibriTTS-R 是一个多说话者的英语语料库,包含大约 585 小时以 24kHz 采样率录制的英语语音,由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的协助下准备。LibriTTS 语料库专为 TTS 研究设计。它源自 LibriSpeech 语料库的原始材料(LibriVox 的 mp3 音频文件和 Project Gutenberg 的文本文件)。与 LibriSpeech 语料库的主要区别如下所示:

  • 音频文件为 24kHz 采样率。
  • 语音在句子中断处分割。
  • 包含原始文本和标准化文本。
  • 可以提取上下文信息(例如,相邻句子)。
  • 排除背景噪音明显的语句。

组建一个好的 TTS 数据集并非易事,因为这样的数据集需要具备以下几个关键特征:

  • 高质量和多样化的录音,涵盖各种语音模式、口音、语言和情感。录音应该清晰,没有背景噪音,并展现自然的语音特征。
  • 转录:每个音频录音都应附有其相应的文本转录。
  • 语言内容的多样性:数据集应包含各种语言内容,包括不同类型的句子、短语和单词。它应涵盖各种主题、体裁和领域,以确保模型能够处理不同的语言上下文。

好消息是,你不太可能需要从头开始训练 TTS 模型。在下一节中,我们将介绍 🤗 Hub 上可用的预训练模型。

< > 在 GitHub 上更新