音频课程文档

补充阅读材料和资源

音频课程

第 0 单元. 欢迎学习本课程！

第 1 单元. 处理音频数据

第 2 单元. 音频应用简介

第 3 单元. 用于音频的 Transformer 架构

第 4 单元. 构建一个音乐流派分类器

第 5 单元. 自动语音识别

第 6 单元. 从文本到语音

你将学到什么以及你将构建什么文本转语音数据集用于文本转语音的预训练模型微调 SpeechT5 评估文本转语音模型动手练习补充阅读和资源

第 7 单元. 综合应用

第 8 单元. 终点线

课程活动

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

补充阅读和资源

本单元介绍了文本转语音任务，并涵盖了大量内容。想了解更多吗？在这里，您将找到更多资源，帮助您加深对这些主题的理解，并提升您的学习体验。

HiFi-GAN：用于高效高保真语音合成的生成对抗网络：一篇介绍用于语音合成的 HiFi-GAN 的论文。
X-Vectors：用于说话人识别的鲁棒 DNN 嵌入：一篇介绍用于说话人嵌入的 X-Vector 方法的论文。
FastSpeech 2：快速高质量的端到端文本转语音：一篇介绍 FastSpeech 2 的论文，这是另一个流行的文本转语音模型，使用非自回归 TTS 方法。
一种在真实世界自发语音上进行文本转语音合成的矢量量化方法：一篇介绍 MQTTS 的论文，MQTTS 是一种自回归 TTS 系统，用量化离散表示替换了梅尔频谱图。

< > 在 GitHub 上更新

←动手练习你将学到什么以及你将构建什么→

© . This site is unofficial and not affiliated with Hugging Face, Inc.