音频课程文档

单元 4. 构建音乐流派分类器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

单元 4. 构建音乐流派分类器

你将学到什么以及你将构建什么

音频分类是 Transformer 在音频和语音处理中最常见的应用之一。与机器学习中的其他分类任务一样,此任务涉及根据音频录制的内容为其分配一个或多个标签。例如,在语音的情况下,我们可能希望检测何时说出“Hey Siri”等唤醒词,或从“今天天气怎么样?”之类的语音查询中推断出“温度”之类的关键词。环境声音提供了另一个示例,我们可能希望自动区分“汽车喇叭”、“警笛声”、“狗叫声”等声音。

在本节中,我们将了解如何将预训练的音频 Transformer 应用于一系列音频分类任务。然后,我们将针对音乐分类任务微调一个 Transformer 模型,将歌曲分类为“流行”和“摇滚”等流派。这是音乐流媒体平台(例如 Spotify)的重要组成部分,这些平台会推荐与用户正在收听的歌曲类似的歌曲。

在本节结束时,您将了解如何

  • 为音频分类任务找到合适的预训练模型
  • 使用 🤗 Datasets 库和 Hugging Face Hub 选择音频分类数据集
  • 微调预训练模型以按流派对歌曲进行分类
  • 构建一个 Gradio 演示,允许你对自己的歌曲进行分类