Hugging Face
模型
数据集
空间
社区
文档
企业版
定价
登录
注册
Learn
音频课程文档
检查您对课程材料的理解
音频课程
🏡 查看所有资源
Agents 课程
音频课程
社区计算机视觉课程
深度强化学习课程
扩散模型课程
LLM 课程
MCP 课程
机器学习 3D 课程
游戏机器学习课程
开源 AI 食谱
搜索文档
BN
英
ES
法
韩
PT-BR
RU
土
简体中文
第 0 单元. 欢迎学习本课程!
第 1 单元. 处理音频数据
第 2 单元. 音频应用简介
第 3 单元. 用于音频的 Transformer 架构
Transformer 模型复习
CTC 架构
Seq2Seq 架构
音频分类架构
测验
补充阅读和资源
第 4 单元. 构建一个音乐流派分类器
第 5 单元. 自动语音识别
第 6 单元. 从文本到语音
第 7 单元. 综合应用
第 8 单元. 终点线
课程活动
加入 Hugging Face 社区
并获得增强的文档体验
在模型、数据集和 Spaces 上进行协作
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
检查您对课程材料的理解
1. 声码器是什么?
将 Transformer 输出的频谱图转换为波形的额外神经网络。
一种负责创建音频嵌入的 Transformer 层。
一种用于预处理语音音频以去除背景噪声的额外神经网络。
提交
2. Wav2Vec2 是哪种架构的例子?
Seq2Seq 架构
CNN 架构
CTC 架构
提交
3. CTC 算法中的空白标记有什么作用?
空白标记表示句子中各个单词之间的停顿。
空白标记是一个预测标记,用作字符组之间的硬边界。它可以过滤掉重复的字符。
空白标记用于词汇表中不匹配任何标记的声音,类似于
'unknown'(未知)标记。
提交
4. 关于 CTC 模型,以下哪项陈述是错误的?
CTC 模型仅使用 Transformer 架构的编码器部分。
Wav2Vec2 和 HuBERT 使用完全相同的架构,但训练方式不同。
与其他架构相比,CTC 模型在语音识别方面往往表现最佳。
提交
5. Whisper 是以下哪种架构的例子?
Seq2Seq 架构
CNN 架构
CTC 架构
提交
6. 执行音频分类最简单的方法是什么?
在音频波形上使用编码器-解码器 Transformer。
使用频谱图,并将任务视为图像分类问题。
通过更改标签并使用常规交叉熵损失函数训练,将 CTC 模型转换为通用音频分类器。
提交
7. 对或错?在将频谱图作为图像进行分类时,您总是能从图像数据增强技术(例如图像平移、裁剪或调整大小)中受益。
正确
否 (False)
提交
<
>
在 GitHub 上更新
←
音频分类架构
完成本章
下一章
检查您对课程材料的理解
1.
声码器是什么?
2.
Wav2
Vec2 是哪种架构的例子?
3.
CT
C 算法中的空白标记有什么作用?
4.
关于 CT
C 模型,以下哪项陈述是错误
的?
5.
Whisper 是哪种架构的例子?
6.
执行音频分类最简单的方法是什么?
7.
对或错?
在将频谱图作为图像进行分类时,您总是能从图像数据增强技术(例如图像平移、裁剪或调整大小)中受益。