音频课程文档

动手练习

音频课程

第 0 单元. 欢迎学习本课程！

第 1 单元. 处理音频数据

第 2 单元. 音频应用简介

音频应用概述使用管道进行音频分类使用管道进行自动语音识别使用管道进行音频生成动手练习

第 3 单元. 用于音频的 Transformer 架构

第 4 单元. 构建一个音乐流派分类器

第 5 单元. 自动语音识别

第 6 单元. 从文本到语音

第 7 单元. 综合应用

第 8 单元. 终点线

课程活动

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

动手练习

本练习不计分，旨在帮助您熟悉在本课程其余部分将使用的工具和库。如果您已经熟练使用 Google Colab、🤗 Datasets、librosa 和 🤗 Transformers，则可以选择跳过此练习。

创建一个 Google Colab 笔记本。
使用 🤗 Datasets 以流模式加载您选择的语言的 facebook/voxpopuli 数据集的训练集。
从数据集的 train 部分获取第三个示例并进行探索。考虑到此示例具有的特征，您可以使用此数据集进行哪些类型的音频任务？
绘制此示例的波形和频谱图。
访问 🤗 Hub，探索预训练模型并找到一个可用于您之前选择的语言的自动语音识别的模型。使用您找到的模型实例化相应的管道，并转录示例。
将从管道获得的转录与示例中提供的转录进行比较。

如果您在练习中遇到困难，请随时查看示例解决方案。发现了什么有趣的东西？找到了一个很酷的模型？得到了漂亮的频谱图？欢迎在 Twitter 上分享您的作品和发现！

在接下来的章节中，您将了解更多关于各种音频 Transformer 架构的知识，并训练您自己的模型！

< > 在 GitHub 上更新

←使用管道生成音频 Transformer 模型回顾→

© . This site is unofficial and not affiliated with Hugging Face, Inc.