Hugging Face
模型
数据集
Spaces
帖子
文档
企业版
定价
登录
注册
Learn
音频课程文档
检查您对课程材料的理解
音频课程
🏡 查看所有资源
Agents 课程
音频课程
社区计算机视觉课程
深度强化学习课程
Diffusion 课程
LLM 课程
3D 机器学习课程
游戏机器学习课程
开源 AI 食谱
搜索文档
BN
EN
ES
FR
KO
PT-BR
RU
TR
ZH-CN
单元 0. 欢迎来到课程!
单元 1. 处理音频数据
单元 2. 音频应用的简要介绍
单元 3. 音频的 Transformer 架构
Transformer 模型回顾
CTC 架构
Seq2Seq 架构
音频分类架构
测验
补充阅读和资源
单元 4. 构建音乐流派分类器
单元 5. 自动语音识别
单元 6. 从文本到语音
单元 7. 整合所有内容
单元 8. 终点线
课程活动
加入 Hugging Face 社区
并获得增强的文档体验
协作处理模型、数据集和 Spaces
通过加速推理获得更快的示例
切换文档主题
注册
开始
检查您对课程材料的理解
1. 什么是声码器?
一个额外的神经网络,将 Transformer 的频谱图输出转换为波形。
一种 Transformer 层,负责创建音频嵌入。
另一个神经网络,预处理语音音频以去除背景噪音
提交
2. Wav2Vec2 是一个例子
Seq2Seq 架构
CNN 架构
CTC 架构
提交
3. CTC 算法中的空白标记有什么作用?
空白标记表示句子中各个单词之间的分隔。
空白标记是一个预测标记,它充当字符组之间的硬边界。它可以过滤掉重复字符
空白标记用于与词汇表中任何标记都不匹配的声音,类似于
“未知”标记。
提交
4. 关于 CTC 模型,以下哪个说法是错误的?
CTC 模型仅使用 Transformer 架构的编码器部分。
Wav2Vec2 和 HuBERT 使用完全相同的架构,但训练方式不同。
与其他架构相比,CTC 模型在语音识别方面往往表现最佳。
提交
5. Whisper 是一个例子
Seq2Seq 架构
CNN 架构
CTC 架构
提交
6. 执行音频分类的最简单方法是什么?
在音频波形上使用编码器-解码器 Transformer。
使用频谱图并将任务视为图像分类问题。
通过更改标签并使用常规交叉熵损失函数对其进行训练,将 CTC 模型转变为通用音频分类器。
提交
7. 对还是错?当将频谱图视为图像进行分类时,您总是会受益于图像数据增强技术,例如平移图像、裁剪图像或调整大小。
对
错
提交
<
>
在 GitHub 上更新
←
音频分类架构
完成章节
下一章
检查您对课程材料的理解
1.
什么是声码器?
2.
Wav2
Vec2 是一个例子
3.
CTC 算法中的空白标记有什么作用?
4.
关于 CTC 模型,以下哪个说法是错误的?
5.
Whisper 是一个例子
6.
执行音频分类的最简单方法是什么?
7.
对还是错?
当将频谱图视为图像进行分类时,您总是会受益于图像数据增强技术,例如平移图像、裁剪图像或调整大小。