音频课程文档
补充阅读材料和资源
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
补充阅读和资源
本单元介绍了文本转语音任务,并涵盖了大量内容。想了解更多吗?在这里,您将找到更多资源,帮助您加深对这些主题的理解,并提升您的学习体验。
- HiFi-GAN:用于高效高保真语音合成的生成对抗网络:一篇介绍用于语音合成的 HiFi-GAN 的论文。
- X-Vectors:用于说话人识别的鲁棒 DNN 嵌入:一篇介绍用于说话人嵌入的 X-Vector 方法的论文。
- FastSpeech 2:快速高质量的端到端文本转语音:一篇介绍 FastSpeech 2 的论文,这是另一个流行的文本转语音模型,使用非自回归 TTS 方法。
- 一种在真实世界自发语音上进行文本转语音合成的矢量量化方法:一篇介绍 MQTTS 的论文,MQTTS 是一种自回归 TTS 系统,用量化离散表示替换了梅尔频谱图。