Hugging Face
模型
数据集
空间
帖子
文档
解决方案
定价
登录
注册
音频课程文档
检查您对课程材料的理解
音频课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散模型课程
3D 机器学习课程
游戏机器学习课程
自然语言处理课程
开源 AI 食谱
搜索文档
BN
EN
ES
FR
KO
RU
TR
ZH-CN
单元 0. 欢迎来到课程!
单元 1. 使用音频数据
单元 2. 音频应用的简要介绍
单元 3. 用于音频的 Transformer 架构
Transformer 模型复习
CTC 架构
Seq2Seq 架构
音频分类架构
测验
补充阅读和资源
单元 4. 构建音乐流派分类器
单元 5. 自动语音识别
单元 6. 从文本到语音
单元 7. 将所有内容整合在一起
单元 8. 终点线
课程活动
加入 Hugging Face 社区
并获得增强文档体验的访问权限
协作模型、数据集和空间
使用加速推理获得更快的示例
在文档主题之间切换
注册
开始
检查您对课程材料的理解
1. 什么是声码器?
一个额外的神经网络,将 Transformer 的频谱图输出转换为波形。
一种负责创建音频嵌入的 Transformer 层。
一个额外的预处理语音音频以去除背景噪声的神经网络
提交
2. Wav2Vec2 是以下哪种架构的示例
Seq2Seq 架构
CNN 架构
CTC 架构
提交
3. CTC 算法中的空白标记的作用是什么?
空白标记指示句子中各个单词之间的断点。
空白标记是一个预测的标记,充当字符组之间的硬边界。它可以过滤掉重复的字符。
空白标记用于与词汇表中任何标记都不匹配的声音,类似于
“未知”的标记。
提交
4. 以下关于 CTC 模型的陈述中,哪一个是错误的?
CTC 模型仅使用 Transformer 架构的编码器部分。
Wav2Vec2 和 HuBERT 使用完全相同的架构,但训练方式不同。
与其他架构相比,CTC 模型在语音识别方面往往表现最佳。
提交
5. Whisper 是以下哪种架构的示例
Seq2Seq 架构
CNN 架构
CTC 架构
提交
6. 执行音频分类的最简单方法是什么?
在音频波形上使用编码器-解码器 Transformer。
使用频谱图并将任务视为图像分类问题。
通过更改标签并使用常规交叉熵损失函数对其进行训练,将 CTC 模型转换为通用音频分类器。
提交
7. 正确或错误?将频谱图视为图像进行分类时,您将始终受益于图像数据增强技术,例如移动图像、裁剪图像或调整大小。
正确
错误
提交
←
音频分类架构
完成章节
下一章
检查您对课程材料的理解
1.
什么是声码器?
2.
Wav2
Vec2 是什么的一个例子?
3.
CTC 算法中的空白标记的作用是什么?
4.
关于 CTC 模型的以下说法中,哪一个是错误的?
5.
Whisper 是什么的一个例子?
6.
执行音频分类最简单的方法是什么?
7.
正确或错误?
当将频谱图视为图像进行分类时,您将始终受益于图像数据增强技术,例如移动图像、裁剪或调整大小。