音频课程文档
选择数据集
并获得增强的文档体验
开始使用
选择数据集
与任何机器学习问题一样,我们的模型的好坏取决于我们用来训练它的数据。语音识别数据集在如何管理和涵盖的领域方面差异很大。要选择正确的数据集,我们需要将我们的标准与数据集提供的功能相匹配。
在我们选择数据集之前,我们首先需要了解关键的定义特征。
语音数据集的特征
1. 小时数
简而言之,训练小时数表示数据集的大小。它类似于 NLP 数据集中的训练示例数量。但是,更大的数据集不一定更好。如果我们想要一个泛化能力强的模型,我们希望数据集是多样化的,包含许多不同的说话人、领域和说话风格。
2. 领域
领域是指数据的来源,无论是音频书、播客、YouTube 还是金融会议。每个领域都有不同的数据分布。例如,有声读物是在高质量的录音棚条件下录制的(没有背景噪音),文本取自书面文学。而对于 YouTube 来说,音频可能包含更多的背景噪音和更非正式的说话风格。
我们需要将我们的领域与我们在推理时预期的条件相匹配。例如,如果我们在有声读物上训练我们的模型,我们就不能期望它在嘈杂的环境中表现良好。
3. 说话风格
说话风格分为两类
- 叙述型:从脚本中朗读
- 自发型:非脚本化的对话式语音
音频和文本数据反映了说话的风格。由于叙述文本是脚本化的,因此它往往发音清晰,没有任何错误
“Consider the task of training a model on a speech recognition dataset”
而对于自发性语音,我们可以预期更口语化的说话风格,包括重复、犹豫和虚假启动
“Let’s uhh let's take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”
4. 转录风格
转录风格指的是目标文本是否带有标点符号、大小写或两者都有。如果我们想要一个系统生成可用于出版物或会议记录的完全格式化的文本,我们需要带有标点符号和大小写的训练数据。如果我们只需要未格式化结构中的口语单词,则标点符号和大小写都不是必需的。在这种情况下,我们可以选择一个没有标点符号或大小写的数据集,或者选择一个有标点符号和大小写的数据集,然后在预处理中从目标文本中删除它们。
Hub 上数据集的摘要
以下是 Hugging Face Hub 上最流行的英语语音识别数据集的摘要
数据集 | 训练小时数 | 领域 | 说话风格 | 大小写 | 标点符号 | 许可证 | 推荐用途 |
---|---|---|---|---|---|---|---|
LibriSpeech | 960 | 有声读物 | 叙述型 | ❌ | ❌ | CC-BY-4.0 | 学术基准 |
Common Voice 11 | 3000 | 维基百科 | 叙述型 | ✅ | ✅ | CC0-1.0 | 非母语人士 |
VoxPopuli | 540 | 欧洲议会 | 演讲 | ❌ | ✅ | CC0 | 非母语人士 |
TED-LIUM | 450 | TED 演讲 | 演讲 | ❌ | ❌ | CC-BY-NC-ND 3.0 | 技术主题 |
GigaSpeech | 10000 | 有声读物、播客、YouTube | 叙述型、自发型 | ❌ | ✅ | apache-2.0 | 跨多个领域的鲁棒性 |
SPGISpeech | 5000 | 金融会议 | 演讲、自发型 | ✅ | ✅ | 用户协议 | 完全格式化的转录 |
Earnings-22 | 119 | 金融会议 | 演讲、自发型 | ✅ | ✅ | CC-BY-SA-4.0 | 口音的多样性 |
AMI | 100 | 会议 | 自发型 | ✅ | ✅ | CC-BY-4.0 | 嘈杂的语音条件 |
此表可作为根据您的标准选择数据集的参考。下面是多语言语音识别的等效表格。请注意,我们省略了训练小时数列,因为这因每个数据集的语言而异,并将其替换为每个数据集的语言数量
数据集 | 语言 | 领域 | 说话风格 | 大小写 | 标点符号 | 许可证 | 推荐用法 |
---|---|---|---|---|---|---|---|
多语言 LibriSpeech | 6 | 有声读物 | 叙述型 | ❌ | ❌ | CC-BY-4.0 | 学术基准 |
Common Voice 13 | 108 | 维基百科文本和众包语音 | 叙述型 | ✅ | ✅ | CC0-1.0 | 多样化的说话人集合 |
VoxPopuli | 15 | 欧洲议会录音 | 自发型 | ❌ | ✅ | CC0 | 欧洲语言 |
FLEURS | 101 | 欧洲议会录音 | 自发型 | ❌ | ❌ | CC-BY-4.0 | 多语言评估 |
有关两个表格中涵盖的音频数据集的详细分类,请参阅博客文章 音频数据集完整指南。虽然 Hub 上有超过 180 个语音识别数据集,但可能没有一个数据集符合您的需求。在这种情况下,也可以将您自己的音频数据与 🤗 Datasets 一起使用。要创建自定义音频数据集,请参阅指南 创建音频数据集。在创建自定义音频数据集时,请考虑在 Hub 上共享最终数据集,以便社区中的其他人可以从您的努力中受益 - 音频社区具有包容性和广泛性,其他人会像您欣赏他们的工作一样欣赏您的工作。
好的!现在我们已经了解了选择 ASR 数据集的所有标准,让我们选择一个用于本教程的数据集。我们知道 Whisper 在转录高资源语言(如英语和西班牙语)的数据方面已经做得相当不错,因此我们将专注于低资源多语言转录。我们希望保留 Whisper 预测标点符号和大小写的能力,因此从第二个表格来看,Common Voice 13 似乎是一个很棒的候选数据集!
Common Voice 13
Common Voice 13 是一个众包数据集,说话者在其中录制来自维基百科的各种语言的文本。它是 Common Voice 系列的一部分,该系列是由 Mozilla 基金会发布的一系列 Common Voice 数据集。在撰写本文时,Common Voice 13 是该数据集的最新版本,在迄今为止的任何版本中,语言和每种语言的小时数都是最多的。
我们可以通过查看 Hub 上的数据集页面来获取 Common Voice 13 数据集的完整语言列表:mozilla-foundation/common_voice_13_0。首次查看此页面时,系统会要求您接受使用条款。之后,您将获得对数据集的完全访问权限。
在我们提供身份验证以使用数据集后,我们将看到数据集预览。数据集预览向我们展示了每种语言数据集的前 100 个样本。更重要的是,它加载了音频样本,供我们实时收听。对于本单元,我们将选择 迪维希语(或马尔代夫语),这是一种在南亚岛国马尔代夫使用的印度-雅利安语。虽然我们为本教程选择了迪维希语,但此处介绍的步骤适用于 Common Voice 13 数据集中的 108 种语言中的任何一种,更普遍地适用于 Hugging Face Hub 上的 180 多个音频数据集中的任何一种,因此对语言或方言没有限制。
我们可以通过使用下拉菜单将子集设置为 dv
来选择 Common Voice 13 的迪维希语子集(dv
是迪维希语的语言标识符代码)

如果我们点击第一个样本上的播放按钮,我们可以收听音频并查看相应的文本。滚动浏览训练集和测试集的样本,以更好地了解我们正在处理的音频和文本数据。您可以从语调和风格中判断出录音来自叙述性语音。您还可能会注意到说话者和录音质量的巨大差异,这是众包数据的常见特征。
数据集预览是在承诺使用音频数据集之前体验它们的绝佳方式。您可以选择 Hub 上的任何数据集,滚动浏览样本并收听不同子集和拆分的音频,从而判断它是否是适合您需求的数据集。选择数据集后,加载数据以便您可以开始使用它非常简单。
现在,我个人不会说迪维希语,并且预计绝大多数读者也不会!为了知道我们微调的模型是否好,我们需要一种严谨的方法来评估它在未见过的数据上的表现并衡量其转录准确性。我们将在下一节中详细介绍这一点!
< > 在 GitHub 上更新