动手练习

在本单元中，我们探讨了文本到语音音频任务，讨论了现有数据集、预训练模型以及为新语言微调 SpeechT5 的细微差别。

正如你所看到的，在资源匮乏的情况下，为文本到语音任务微调模型可能具有挑战性。同时，评估文本到语音模型也并非易事。

由于这些原因，本次动手练习将侧重于练习技能，而不是达到某个特定的指标值。

此任务的目标是在你选择的数据集上微调 SpeechT5。你可以自由选择来自相同 voxpopuli 数据集的另一种语言，或者选择本单元中列出的任何其他数据集。

请注意训练数据的大小！为了在 Google Colab 的免费 GPU 上进行训练，我们建议将训练数据限制在 10-15 小时左右。

完成微调过程后，通过将其上传到 Hub 来分享你的模型。请务必使用适当的 kwargs 或在 Hub UI 中将你的模型标记为 text-to-speech 模型。

请记住，本次练习的主要目的是为你提供充足的练习，让你能够磨练技能，并更深入地理解文本到语音音频任务。

音频课程