音频课程文档

第 2 单元. 音频应用简介

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

第二单元:音频应用程序简介

欢迎来到 Hugging Face 音频课程的第二单元!之前,我们探讨了音频数据的基础知识,并学习了如何使用 🤗 Datasets 和 🤗 Transformers 库处理音频数据集。我们讨论了采样率、幅度、位深、波形和频谱图等各种概念,并了解了如何预处理数据以准备用于预训练模型。

现在您可能迫不及待地想了解 🤗 Transformers 可以处理的音频任务,您已经拥有了所有必要的基础知识,可以深入学习了!让我们来看看一些令人惊叹的音频任务示例:

  • 音频分类:轻松地将音频片段分类到不同的类别中。您可以识别录音是狗吠还是猫叫,或者一首歌属于哪种音乐流派。
  • 自动语音识别:通过自动转录将音频片段转换为文本。您可以获得某人讲话录音的文本表示,例如“你今天过得怎么样?”。这对于记笔记非常有用!
  • 说话人识别:有没有想过录音中是谁在说话?使用 🤗 Transformers,您可以识别音频片段中在任何给定时间是谁在说话。想象一下,您可以在他们对话的录音中区分“Alice”和“Bob”。
  • 文本转语音:创建文本的旁白版本,可用于制作有声读物、帮助残障人士或为游戏中的 NPC 配音。使用 🤗 Transformers,您可以轻松完成这些!

在本单元中,您将学习如何使用 🤗 Transformers 的 pipeline() 函数来完成其中一些任务的预训练模型。具体来说,我们将了解预训练模型如何用于音频分类、自动语音识别和音频生成。让我们开始吧!

< > 在 GitHub 上更新