音频课程文档

动手练习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

动手练习

在本单元中,我们探索了文本到语音的音频任务,讨论了现有的数据集、预训练模型以及为新语言微调 SpeechT5 的细微之处。

正如你所看到的,在低资源场景中,为文本到语音任务微调模型可能具有挑战性。 同时,评估文本到语音模型也不容易。

由于这些原因,这个动手练习将侧重于练习技能,而不是实现某个指标值。

你在这个任务中的目标是在你选择的数据集上微调 SpeechT5。 你可以自由地从相同的 voxpopuli 数据集中选择另一种语言,或者你可以选择本单元中列出的任何其他数据集。

请注意训练数据的大小! 对于在 Google Colab 的免费层 GPU 上进行训练,我们建议将训练数据限制在约 10-15 小时。

完成微调过程后,通过将其上传到 Hub 来分享你的模型。 确保使用适当的 kwargs 或在 Hub UI 中将你的模型标记为文本到语音模型。

请记住,本练习的主要目的是为你提供充分的练习,使你能够磨练你的技能并更深入地理解文本到语音的音频任务。

< > 在 GitHub 上更新