音频课程文档

动手练习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始入门

动手练习

本练习不评分,旨在帮助您熟悉将在本课程其余部分中使用的工具和库。如果您已经有使用 Google Colab、🤗 Datasets、librosa 和 🤗 Transformers 的经验,您可以选择跳过此练习。

  1. 创建一个 Google Colab 笔记本。
  2. 使用 🤗 Datasets 以流模式加载您选择的语言的 facebook/voxpopuli 数据集 的 train 分割。
  3. 从数据集的 train 部分获取第三个示例并进行探索。 鉴于此示例具有的特征,您可以将此数据集用于哪些类型的音频任务?
  4. 绘制此示例的波形和频谱图。
  5. 转到 🤗 Hub,浏览预训练模型,找到一个可用于您先前选择的语言的自动语音识别的模型。 使用您找到的模型实例化相应的 pipeline,并转录该示例。
  6. 将您从 pipeline 获得的转录与示例中提供的转录进行比较。

如果您在此练习中遇到困难,请随时查看示例解决方案。 发现了有趣的东西? 找到了很酷的模型? 得到了漂亮的频谱图? 欢迎在 Twitter 上分享您的作品和发现!

在接下来的章节中,您将了解更多关于各种音频 transformer 架构的信息,并将训练您自己的模型!

< > 在 GitHub 上更新