音频课程文档
动手练习
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
动手练习
在本单元中,我们探讨了文本到语音音频任务,讨论了现有数据集、预训练模型以及为新语言微调 SpeechT5 的细微差别。
正如你所看到的,在资源匮乏的情况下,为文本到语音任务微调模型可能具有挑战性。同时,评估文本到语音模型也并非易事。
由于这些原因,本次动手练习将侧重于练习技能,而不是达到某个特定的指标值。
此任务的目标是在你选择的数据集上微调 SpeechT5。你可以自由选择来自相同 voxpopuli
数据集的另一种语言,或者选择本单元中列出的任何其他数据集。
请注意训练数据的大小!为了在 Google Colab 的免费 GPU 上进行训练,我们建议将训练数据限制在 10-15 小时左右。
完成微调过程后,通过将其上传到 Hub 来分享你的模型。请务必使用适当的 kwargs 或在 Hub UI 中将你的模型标记为 text-to-speech
模型。
请记住,本次练习的主要目的是为你提供充足的练习,让你能够磨练技能,并更深入地理解文本到语音音频任务。
< > 在 GitHub 上更新