动手练习
在本单元中,我们探讨了文本到语音音频任务,讨论了现有的数据集、预训练模型以及针对新语言微调 SpeechT5 的细微差别。
正如你所见,在资源匮乏的情况下,为文本到语音任务微调模型可能具有挑战性。同时,评估文本到语音模型也并非易事。
出于这些原因,本动手练习将专注于练习技能,而不是实现特定指标值。
你在此任务中的目标是在你选择的某个数据集上微调 SpeechT5。你可以自由选择来自相同 voxpopuli
数据集的其他语言,或者选择本单元中列出的任何其他数据集。
请注意训练数据的大小!对于在 Google Colab 的免费层 GPU 上进行训练,建议将训练数据限制在约 10-15 小时。
完成微调过程后,通过上传到 Hub 共享你的模型。确保使用适当的关键字或在 Hub UI 中将你的模型标记为 text-to-speech
模型。
请记住,本练习的主要目的是为你提供充分的练习机会,让你能够改进技能,更深入地理解文本到语音音频任务。