音频课程文档
动手练习
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
动手练习
在本单元中,我们探索了文本到语音的音频任务,讨论了现有的数据集、预训练模型以及为新语言微调 SpeechT5 的细微之处。
正如你所看到的,在低资源场景中,为文本到语音任务微调模型可能具有挑战性。 同时,评估文本到语音模型也不容易。
由于这些原因,这个动手练习将侧重于练习技能,而不是实现某个指标值。
你在这个任务中的目标是在你选择的数据集上微调 SpeechT5。 你可以自由地从相同的 voxpopuli 数据集中选择另一种语言,或者你可以选择本单元中列出的任何其他数据集。
请注意训练数据的大小! 对于在 Google Colab 的免费层 GPU 上进行训练,我们建议将训练数据限制在约 10-15 小时。
完成微调过程后,通过将其上传到 Hub 来分享你的模型。 确保使用适当的 kwargs 或在 Hub UI 中将你的模型标记为文本到语音模型。
请记住,本练习的主要目的是为你提供充分的练习,使你能够磨练你的技能并更深入地理解文本到语音的音频任务。
< > 在 GitHub 上更新