音频课程文档

实践练习

Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验的访问权限

开始

实践练习

在本单元中,我们探讨了微调 ASR 模型的挑战,承认微调像 Whisper 这样的模型(即使是小型检查点)到新语言所需的时间和资源。为了提供实践体验,我们设计了一个练习,让你可以在使用较小数据集的同时浏览微调 ASR 模型的过程。此练习的主要目标是让你熟悉该过程,而不是期望获得生产级结果。我们有意设定了一个较低的指标,以确保即使在资源有限的情况下,你也应该能够达到它。

以下是说明

  • 使用 ”PolyAI/minds14” 数据集的美国英语 (“en-US”) 子集微调 ”openai/whisper-tiny” 模型。
  • 使用前 450 个示例进行训练,其余用于评估。确保在使用 .map 方法预处理数据集时设置 num_proc=1(这将确保你的模型能够正确提交以进行评估)。
  • 为了评估模型,请使用本单元中描述的 werwer_ortho 指标。但是,不要通过乘以 100 将指标转换为百分比(例如,如果 WER 为 42%,我们期望在此练习中看到 0.42 的值)。

一旦你微调了模型,请确保使用以下 kwargs 将其上传到 🤗 Hub

kwargs = {
     "dataset_tags": "PolyAI/minds14",
    "finetuned_from": "openai/whisper-tiny",
    "tasks": "automatic-speech-recognition",
}

如果你的模型的标准化 WER (wer) 低于 0.37,你将通过此作业。

随意构建模型的演示,并在 Discord 上分享!如果你有任何问题,请在 #audio-study-group 频道中发布。