音频课程文档

Unit 2. 音频应用入门

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始入门

Unit 2. 音频应用入门

欢迎来到 Hugging Face 音频课程的第二单元!在上一单元中,我们探索了音频数据的基本原理,并学习了如何使用 🤗 Datasets 和 🤗 Transformers 库处理音频数据集。我们讨论了各种概念,例如采样率、振幅、位深度、波形和频谱图,并了解了如何预处理数据以使其为预训练模型做好准备。

现在您可能渴望了解 🤗 Transformers 可以处理的音频任务,并且您已经掌握了深入研究所需的所有基础知识!让我们看一些令人兴奋的音频任务示例

  • 音频分类:轻松将音频片段分类到不同的类别中。您可以识别录音是狗叫还是猫叫,或者歌曲属于哪种音乐流派。
  • 自动语音识别:通过自动转录将音频片段转换为文本。您可以获得某人说话录音的文本表示,例如“今天你好吗?”。对于笔记记录非常有用!
  • 说话人区分:有没有想过录音中是谁在说话?借助 🤗 Transformers,您可以识别音频片段中任何给定时间正在说话的说话人。想象一下能够在 Alice 和 Bob 的对话录音中区分他们。
  • 文本到语音:创建文本的旁白版本,可用于制作有声读物、帮助提高可访问性或为游戏中的 NPC 配音。借助 🤗 Transformers,您可以轻松做到这一点!

在本单元中,您将学习如何使用 🤗 Transformers 中的 pipeline() 函数将预训练模型用于其中一些任务。具体来说,我们将了解预训练模型如何用于音频分类、自动语音识别和音频生成。让我们开始吧!

< > 在 GitHub 上更新