欢迎来到 Hugging Face 音频课程!
亲爱的学习者:
欢迎来到这个关于使用 Transformer 处理音频的课程。 Transformer 一再证明自己是功能最强大、用途最广泛的深度学习架构之一,能够在各种任务中取得最先进的结果,包括自然语言处理、计算机视觉,以及最近的音频处理。
在本课程中,我们将探讨如何将 Transformer 应用于音频数据。您将学习如何使用它们来处理各种与音频相关的任务。无论您是感兴趣语音识别、音频分类,还是从文本生成语音,Transformer 和本课程都将满足您的需求。
为了让您体验这些模型的功能,请在下面的演示中说几句话,并观察模型实时转录它们!
在整个课程中,您将了解处理音频数据的具体内容,您将学习不同的 Transformer 架构,并利用强大的预训练模型训练自己的音频 Transformer。
本课程专为具有深度学习背景和对 Transformer 一般了解的学习者设计。不需要任何音频数据处理方面的专业知识。如果您需要复习对 Transformer 的理解,请查看我们的 NLP 课程,该课程详细介绍了 Transformer 的基础知识。
认识课程团队
Sanchit Gandhi,Hugging Face 机器学习研究工程师
嗨!我是 Sanchit,我是 Hugging Face 🤗 开源团队的音频机器学习研究工程师。我的主要工作是自动语音识别和翻译,目前的目标是使语音模型更快、更轻便,更易于使用。
Matthijs Hollemans,Hugging Face 机器学习工程师
我是 Matthijs,我是 Hugging Face 开源团队的音频机器学习工程师。我同时也是一本关于如何编写声音合成器的书籍的作者,在业余时间,我还会创建音频插件。
Maria Khalusova,Hugging Face 文档和课程
我是 Maria,我创建教育内容和文档,让 Transformer 和其他开源工具更容易使用。我分解复杂的技术概念,并帮助大家开始使用尖端技术。
Vaibhav Srivastav,Hugging Face 机器学习开发者倡导工程师
我是 Vaibhav(VB),我是 Hugging Face 开源团队的音频开发者倡导工程师。我研究低资源文本到语音,并帮助将 SoTA 语音研究推广到大众。
课程结构
本课程分为多个单元,深入涵盖各种主题
- 单元 1:了解处理音频数据的具体内容,包括音频处理技术和数据准备。
- 单元 2:了解音频应用,并学习如何使用 🤗 Transformers 管道执行不同的任务,例如音频分类和语音识别。
- 单元 3:探索音频 Transformer 架构,了解它们之间的区别,以及它们最适合哪些任务。
- 单元 4:学习如何构建自己的音乐类型分类器。
- 单元 5:深入研究语音识别,并构建一个模型来转录会议录音。
- 单元 6:学习如何从文本生成语音。
- 单元 7:学习如何使用 Transformer 构建现实世界的音频应用程序。
每个单元都包含理论部分,您将在其中深入了解基础概念和技术。在整个课程中,我们提供测验来帮助您测试您的知识并巩固您的学习。某些章节还包含实践练习,您将有机会应用所学知识。
在本课程结束时,您将对使用 Transformer 处理音频数据有扎实的了解,并将有能力将这些技术应用于各种与音频相关的任务。
课程单元将分几个连续的区块发布,以下为发布时间表
单元 | 发布时间 |
---|---|
单元 0、单元 1 和单元 2 | 2023 年 6 月 14 日 |
单元 3、单元 4 | 2023 年 6 月 21 日 |
单元 5 | 2023 年 6 月 28 日 |
单元 6 | 2023 年 7 月 5 日 |
单元 7、单元 8 | 2023 年 7 月 12 日 |
学习路径和认证
学习本课程没有正确或错误的方式。本课程中的所有材料都是 100% 免费、公开和开源的。您可以根据自己的进度学习本课程,但是我们建议您按顺序学习各个单元。
如果您希望在完成课程后获得认证,我们提供两种选择
证书类型 | 要求 |
---|---|
完成证书 | 按照说明完成 80% 的实践练习。 |
荣誉证书 | 按照说明完成 100% 的实践练习。 |
每个实践练习都概述了其完成标准。一旦您完成了足够的实践练习以获得两种证书之一的资格,请参考课程的最后一个单元,了解如何获得您的证书。祝好!
注册课程
本课程的单元将在未来几周内逐步发布。我们鼓励您注册课程更新,以便在发布新单元时不会错过。注册课程更新的学习者还将是最早了解我们计划举办的特殊社交活动的人。
祝您学习愉快!