单元 2. 音频应用入门
欢迎来到 Hugging Face 音频课程的第二个单元!之前,我们探索了音频数据的基础知识,并学习了如何使用 🤗 Datasets 和 🤗 Transformers 库处理音频数据集。我们讨论了采样率、振幅、位深度、波形和频谱图等各种概念,并了解了如何预处理数据以将其准备用于预训练模型。
此时,您可能渴望了解 🤗 Transformers 可以处理的音频任务,并且您已经具备了深入学习所需的所有基础知识!让我们看看一些令人惊叹的音频任务示例
- 音频分类:轻松地将音频剪辑分类到不同的类别中。您可以识别录音是狗叫声还是猫叫声,或者歌曲属于哪种音乐类型。
- 自动语音识别:通过自动转录将音频剪辑转换为文本。您可以获得某人说话的录音的文本表示,例如“您今天过得怎么样?”。对于做笔记非常有用!
- 说话人分段:是否想知道录音中是谁在说话?使用 🤗 Transformers,您可以识别音频剪辑中任何给定时间段内正在说话的说话人。想象一下,能够在一个关于他们对话的录音中区分“Alice”和“Bob”。
- 文本到语音:创建文本的旁白版本,可用于制作有声读物、辅助访问或为游戏中的人物配音。使用 🤗 Transformers,您可以轻松做到这一点!
在本单元中,您将学习如何使用 🤗 Transformers 中的 pipeline()
函数为其中一些任务使用预训练模型。具体来说,我们将了解如何将预训练模型用于音频分类、自动语音识别和音频生成。让我们开始吧!