音频课程文档

动手练习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

动手练习

在本单元中,我们探讨了文本到语音音频任务,讨论了现有数据集、预训练模型以及为新语言微调 SpeechT5 的细微差别。

正如你所看到的,在资源匮乏的情况下,为文本到语音任务微调模型可能具有挑战性。同时,评估文本到语音模型也并非易事。

由于这些原因,本次动手练习将侧重于练习技能,而不是达到某个特定的指标值。

此任务的目标是在你选择的数据集上微调 SpeechT5。你可以自由选择来自相同 voxpopuli 数据集的另一种语言,或者选择本单元中列出的任何其他数据集。

请注意训练数据的大小!为了在 Google Colab 的免费 GPU 上进行训练,我们建议将训练数据限制在 10-15 小时左右。

完成微调过程后,通过将其上传到 Hub 来分享你的模型。请务必使用适当的 kwargs 或在 Hub UI 中将你的模型标记为 text-to-speech 模型。

请记住,本次练习的主要目的是为你提供充足的练习,让你能够磨练技能,并更深入地理解文本到语音音频任务。

< > 在 GitHub 上更新