音频课程文档
补充阅读和资源
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
补充阅读和资源
本单元介绍了文本到语音的任务,并涵盖了很多内容。想要了解更多吗?在这里,你将找到额外的资源,帮助你加深对主题的理解并提升你的学习体验。
- HiFi-GAN:用于高效和高保真语音合成的生成对抗网络:一篇介绍 HiFi-GAN 用于语音合成的论文。
- X-Vectors:用于说话人识别的鲁棒 DNN 嵌入:一篇介绍用于说话人嵌入的 X-Vector 方法的论文。
- FastSpeech 2:快速且高质量的端到端文本到语音:一篇介绍 FastSpeech 2 的论文,这是另一种流行的文本到语音模型,它使用非自回归 TTS 方法。
- 一种用于真实世界自然语音的文本到语音合成的向量量化方法:一篇介绍 MQTTS 的论文,这是一个自回归 TTS 系统,它用量化的离散表示替换了梅尔频谱图。