补充阅读和资源
本单元介绍了文本到语音任务,并涵盖了许多内容。想了解更多信息?在这里,您将找到其他资源,帮助您加深对主题的理解并增强您的学习体验。
- HiFi-GAN:用于高效高保真语音合成的生成对抗网络:一篇介绍用于语音合成的 HiFi-GAN 的论文。
- X-向量:用于说话人识别的鲁棒 DNN 嵌入:一篇介绍用于说话人嵌入的 X-向量方法的论文。
- FastSpeech 2:快速且高质量的端到端文本到语音:一篇介绍 FastSpeech 2 的论文,FastSpeech 2 是另一种流行的文本到语音模型,它使用非自回归 TTS 方法。
- 一种用于真实世界自发语音文本到语音合成的矢量量化方法:一篇介绍 MQTTS 的论文,MQTTS 是一种自回归 TTS 系统,它用量化的离散表示替换梅尔谱图。