音频课程文档

第 4 单元. 构建一个音乐流派分类器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

单元 4. 构建音乐流派分类器

您将学习和构建什么

音频分类是音频和语音处理中 Transformer 最常见的应用之一。与机器学习中的其他分类任务一样,此任务涉及根据音频录制的内容为其分配一个或多个标签。例如,在语音的情况下,我们可能需要检测何时说出“嘿 Siri”之类的唤醒词,或者从“今天天气如何?”之类的口头查询中推断出“温度”之类的关键词。环境声音提供了另一个例子,我们可能需要自动区分“汽车喇叭”、“警报器”、“狗叫”等声音。

在本节中,我们将了解如何将预训练的音频 Transformer 应用于各种音频分类任务。然后,我们将针对音乐分类任务微调 Transformer 模型,将歌曲分类为“流行”和“摇滚”等流派。这是 Spotify 等音乐流媒体平台的重要组成部分,这些平台会推荐与用户正在收听的歌曲相似的歌曲。

在本节结束时,您将了解如何

  • 查找适用于音频分类任务的预训练模型
  • 使用 🤗 Datasets 库和 Hugging Face Hub 选择音频分类数据集
  • 微调预训练模型以按流派分类歌曲
  • 构建一个 Gradio 演示,让您对自己的歌曲进行分类
< > 在 GitHub 上更新