音频课程文档

欢迎来到 Hugging Face 音频课程!

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

欢迎来到 Hugging Face 音频课程!

亲爱的学习者:

欢迎学习这门关于使用 Transformer 处理音频的课程。Transformer 一次又一次地证明了它们是功能最强大、用途最广泛的深度学习架构之一,能够在自然语言处理、计算机视觉以及最近的音频处理等各种任务中取得最先进的成果。

在本课程中,我们将探讨如何将 Transformer 应用于音频数据。您将学习如何使用它们来处理一系列与音频相关的任务。无论您对语音识别、音频分类还是从文本生成语音感兴趣,Transformer 和本课程都能满足您的需求。

为了让您体验这些模型的功能,请在下面的演示中说几句话,观看模型实时转录!

在整个课程中,您将了解处理音频数据的具体细节,学习不同的 Transformer 架构,并利用强大的预训练模型来训练您自己的音频 Transformer。

本课程专为具有深度学习背景并对 Transformer 有大致了解的学习者设计。无需音频数据处理的专业知识。如果您需要温习对 Transformer 的理解,请查看我们的 NLP 课程,其中详细介绍了 Transformer 的基础知识。

认识课程团队

Sanchit Gandhi,Hugging Face 机器学习研究工程师

嗨!我是 Sanchit,是 Hugging Face 🤗 开源团队的音频机器学习研究工程师。我主要关注自动语音识别和翻译,当前目标是使语音模型更快、更轻、更易于使用。

Matthijs Hollemans,Hugging Face 机器学习工程师

我是 Matthijs,是 Hugging Face 开源团队的音频机器学习工程师。我还是一本关于如何编写声音合成器的书的作者,并且在业余时间创建音频插件。

Maria Khalusova,Hugging Face 文档与课程

我是 Maria,我负责创建教育内容和文档,以使 Transformer 和其他开源工具更易于访问。我将复杂的技术概念分解,帮助人们开始使用前沿技术。

Vaibhav Srivastav,Hugging Face ML 开发者倡导工程师

我是 Vaibhav (VB),是 Hugging Face 开源团队的音频开发者倡导工程师。我研究低资源文本到语音技术,并帮助将最先进的语音研究推广给大众。

课程结构

本课程分为几个单元,深入涵盖了各种主题。

  • 第 1 单元:学习处理音频数据的具体细节,包括音频处理技术和数据准备。
  • 第 2 单元:了解音频应用,并学习如何使用 🤗 Transformers 流水线处理不同任务,如音频分类和语音识别。
  • 第 3 单元:探索音频 Transformer 架构,了解它们的区别以及它们最适合的任务。
  • 第 4 单元:学习如何构建您自己的音乐流派分类器。
  • 第 5 单元:深入研究语音识别,并构建一个模型来转录会议录音。
  • 第 6 单元:学习如何从文本生成语音。
  • 第 7 单元:学习如何使用 Transformer 构建真实的音频应用。

每个单元都包含一个理论部分,您将深入理解其基本概念和技术。在整个课程中,我们提供测验来帮助您测试知识并巩固学习。一些章节还包括动手练习,您将有机会应用所学知识。

到课程结束时,您将对使用 Transformer 处理音频数据有扎实的基础,并能将这些技术应用于广泛的音频相关任务。

课程单元将按以下发布时间表分几批连续发布:

单元 发布日期
第 0、1、2 单元 2023 年 6 月 14 日
第 3、4 单元 2023 年 6 月 21 日
第 5 单元 2023 年 6 月 28 日
第 6 单元 2023 年 7 月 5 日
第 7、8 单元 2023 年 7 月 12 日

学习路径和证书

学习本课程没有对错之分。本课程的所有材料都是 100% 免费、公开和开源的。您可以按照自己的节奏学习,但我们建议您按顺序学习各个单元。

如果您想在课程完成后获得证书,我们提供两种选择:

证书类型 要求
结业证书 按照说明完成 80% 的动手练习。
荣誉证书 按照说明完成 100% 的动手练习。

每个动手练习都概述了其完成标准。一旦您完成了足够多的动手练习,符合任一证书的资格,请参阅课程的最后一个单元,了解如何获取您的证书。祝您好运!

注册课程

本课程的单元将在几周内逐步发布。我们鼓励您注册课程更新,以便在发布新单元时不会错过。注册课程更新的学习者也将是第一批了解我们计划举办的特殊社交活动的人。

注册

祝您学习愉快!

< > 在 GitHub 上更新