音频课程文档

动手练习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

动手练习

在本单元中,我们探讨了微调 ASR 模型所面临的挑战,承认了在新语言上微调像 Whisper 这样的模型(即使是小型检查点)所需的时间和资源。为了提供动手实践经验,我们设计了一个练习,让您能够在使用较小数据集的情况下完成 ASR 模型的微调过程。本练习的主要目标是让您熟悉该过程,而不是期望达到生产级结果。我们特意设置了一个较低的指标,以确保即使资源有限,您也能够实现它。

以下是说明:

  • 使用 `”PolyAI/minds14”` 数据集的美国英语(“en-US”)子集,微调 `”openai/whisper-tiny”` 模型。
  • 使用前 **450 个示例进行训练**,其余用于评估。在使用 `.map` 方法预处理数据集时,请确保设置 `num_proc=1`(这将确保您的模型正确提交以进行评估)。
  • 为了评估模型,请使用本单元中描述的 `wer` 和 `wer_ortho` 指标。但是,请**不要**将指标乘以 100 转换为百分比(例如,如果 WER 为 42%,则在此练习中我们期望看到的值为 0.42)。

微调模型后,请务必使用以下 `kwargs` 将其上传到 🤗 Hub:

kwargs = {
     "dataset_tags": "PolyAI/minds14",
    "finetuned_from": "openai/whisper-tiny",
    "tasks": "automatic-speech-recognition",
}

如果您的模型的标准化 WER (`wer`) 低于 **0.37**,您将通过此项作业。

随意构建您的模型演示,并在 Discord 上分享!如果您有问题,请在 #audio-study-group 频道中提出。

< > 在 GitHub 上更新