音频课程文档
选择数据集
并获得增强的文档体验
开始使用
选择数据集
与任何机器学习问题一样,我们的模型的好坏取决于我们用来训练它的数据。语音识别数据集在策展方式和涵盖领域方面差异很大。为了选择正确的数据集,我们需要将我们的标准与数据集提供的功能相匹配。
在选择数据集之前,我们首先需要了解其关键的定义特征。
语音数据集的特征
1. 时长
简单来说,训练时长表示数据集的大小。这类似于 NLP 数据集中训练示例的数量。然而,更大的数据集不一定更好。如果我们想要一个泛化能力强的模型,我们希望有一个包含大量不同说话者、领域和说话风格的**多样化**数据集。
2. 领域
领域是指数据来源于何处,无论是有声读物、播客、YouTube 还是金融会议。每个领域都有不同的数据分布。例如,有声读物是在高质量录音棚条件下录制的(没有背景噪音),文本取自书面文学。而 YouTube 的音频可能包含更多背景噪音和更非正式的说话风格。
我们需要将我们的领域与我们在推理时预期的条件相匹配。例如,如果我们在有声读物上训练模型,我们不能指望它在嘈杂的环境中表现良好。
3. 说话风格
说话风格分为以下两类:
- 叙述型:根据稿件朗读
- 即兴型:无稿、口语化表达
音频和文本数据反映了说话的风格。由于叙述文本是根据稿件朗读的,因此往往发音清晰且没有错误。
“Consider the task of training a model on a speech recognition dataset”
而对于即兴型语音,我们可以预期更口语化的说话风格,其中包含重复、犹豫和假开始。
“Let’s uhh let's take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”
4. 转录风格
转录风格指的是目标文本是否包含标点符号、大小写或两者兼有。如果我们希望系统生成可用于出版物或会议转录的完全格式化文本,我们需要包含标点符号和大小写的训练数据。如果我们只需要未格式化的口语词语,则标点符号和大小写都不是必需的。在这种情况下,我们可以选择不带标点符号或大小写的数据集,或者选择一个带标点符号和大小写的数据集,然后通过预处理将其从目标文本中删除。
Hub 上的数据集概述
以下是 Hugging Face Hub 上最受欢迎的英语语音识别数据集的概述
数据集 | 训练时长 | 领域 | 说话风格 | 大小写 | 标点符号 | 许可证 | 推荐用途 |
---|---|---|---|---|---|---|---|
LibriSpeech | 960 | 有声读物 | 叙述型 | ❌ | ❌ | CC-BY-4.0 | 学术基准 |
Common Voice 11 | 3000 | 维基百科 | 叙述型 | ✅ | ✅ | CC0-1.0 | 非母语者 |
VoxPopuli | 540 | 欧洲议会 | 演说型 | ❌ | ✅ | CC0 | 非母语者 |
TED-LIUM | 450 | TED 演讲 | 演说型 | ❌ | ❌ | CC-BY-NC-ND 3.0 | 技术主题 |
GigaSpeech | 10000 | 有声读物、播客、YouTube | 叙述型、即兴型 | ❌ | ✅ | apache-2.0 | 多领域鲁棒性 |
SPGISpeech | 5000 | 金融会议 | 演说型、即兴型 | ✅ | ✅ | 用户协议 | 完整格式的转录 |
Earnings-22 | 119 | 金融会议 | 演说型、即兴型 | ✅ | ✅ | CC-BY-SA-4.0 | 口音多样性 |
AMI | 100 | 会议 | 即兴型 | ✅ | ✅ | CC-BY-4.0 | 嘈杂语音条件 |
此表作为根据您的标准选择数据集的参考。下面是多语言语音识别的等效表格。请注意,我们省略了训练时长列,因为这因每个数据集的语言而异,并将其替换为每个数据集的语言数量
数据集 | 语言 | 领域 | 说话风格 | 大小写 | 标点符号 | 许可证 | 推荐用途 |
---|---|---|---|---|---|---|---|
多语言 LibriSpeech | 6 | 有声读物 | 叙述型 | ❌ | ❌ | CC-BY-4.0 | 学术基准 |
Common Voice 13 | 108 | 维基百科文本和众包语音 | 叙述型 | ✅ | ✅ | CC0-1.0 | 多样化的说话者集 |
VoxPopuli | 15 | 欧洲议会录音 | 即兴型 | ❌ | ✅ | CC0 | 欧洲语言 |
FLEURS | 101 | 欧洲议会录音 | 即兴型 | ❌ | ❌ | CC-BY-4.0 | 多语言评估 |
有关这两个表格中涵盖的音频数据集的详细分类,请参阅博客文章 音频数据集完整指南。虽然 Hub 上有超过 180 个语音识别数据集,但可能没有一个数据集能满足您的需求。在这种情况下,也可以使用您自己的音频数据与 🤗 Datasets。要创建自定义音频数据集,请参阅指南 创建音频数据集。在创建自定义音频数据集时,请考虑在 Hub 上共享最终数据集,以便社区中的其他人可以从您的努力中受益——音频社区是包容和广泛的,其他人会像您欣赏他们的工作一样欣赏您的工作。
好的!现在我们已经了解了选择 ASR 数据集的所有标准,让我们为本教程选择一个。我们知道 Whisper 在转录高资源语言(如英语和西班牙语)的数据方面已经做得相当不错,所以我们将专注于低资源多语言转录。我们希望保留 Whisper 预测标点和大小写的能力,所以从第二个表格来看,Common Voice 13 是一个很好的候选数据集!
Common Voice 13
Common Voice 13 是一个众包数据集,说话者用各种语言录制维基百科文本。它是 Common Voice 系列的一部分,由 Mozilla 基金会发布。在撰写本文时,Common Voice 13 是该数据集的最新版本,拥有迄今为止所有版本中最多的语言和每种语言的时长。
我们可以通过查看 Hub 上的数据集页面获取 Common Voice 13 数据集的完整语言列表:mozilla-foundation/common_voice_13_0。首次查看此页面时,系统会要求您接受使用条款。之后,您将获得数据集的完全访问权限。
一旦我们提供了使用数据集的身份验证,就会显示数据集预览。数据集预览向我们展示了每种语言数据集的前 100 个样本。更棒的是,它加载了音频样本,我们可以实时收听。在本单元中,我们将选择迪维希语(或马尔代夫语),这是一种在南亚岛国马尔代夫使用的印欧语系语言。虽然我们为本教程选择了迪维希语,但这里介绍的步骤适用于 Common Voice 13 数据集中 108 种语言中的任何一种,更普遍适用于 Hugging Face Hub 上 180 多个音频数据集中的任何一个,因此对语言或方言没有限制。
我们可以通过下拉菜单将子集设置为 `dv` 来选择 Common Voice 13 的迪维希语子集(`dv` 是迪维希语的语言标识符代码)

如果我们点击第一个样本上的播放按钮,我们可以收听音频并查看相应的文本。滚动查看训练集和测试集的样本,以便更好地了解我们正在处理的音频和文本数据。从语调和风格可以判断,这些录音取自叙述性语音。您可能还会注意到说话者和录音质量的巨大差异,这是众包数据的共同特征。
数据集预览是体验音频数据集的绝佳方式,无需事先提交。您可以在 Hub 上选择任何数据集,滚动浏览样本并收听不同子集和分割的音频,从而判断它是否是适合您需求的数据集。一旦您选择了数据集,加载数据就变得非常简单,您可以立即开始使用它。
现在,我个人不会说迪维希语,并且预计绝大多数读者也不会!为了知道我们微调后的模型是否好用,我们需要一种严格的方法来**评估**它在未见过的数据上的表现,并衡量其转录准确性。我们将在下一节中详细介绍这一点!
< > 在 GitHub 上更新