音频课程文档

动手练习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

动手练习

在本单元中,我们探讨了微调 ASR 模型的挑战,认识到在新语言上微调像 Whisper 这样的模型(即使是一个小型检查点)所需的时间和资源。为了提供动手实践经验,我们设计了一个练习,让您可以在使用较小数据集的情况下浏览微调 ASR 模型的流程。本练习的主要目标是让您熟悉该流程,而不是期望获得生产级别的结果。我们有意设置了一个较低的指标,以确保即使资源有限,您也应该能够实现它。

以下是说明

  • 使用 ”PolyAI/minds14” 数据集的美国英语 (“en-US”) 子集微调 ”openai/whisper-tiny” 模型。
  • 使用前 450 个示例进行训练,其余用于评估。使用 .map 方法预处理数据集时,请确保设置 num_proc=1(这将确保您的模型被正确提交以进行评估)。
  • 为了评估模型,请使用本单元中描述的 werwer_ortho 指标。但是,不要通过乘以 100 将指标转换为百分比(例如,如果 WER 为 42%,我们希望在本练习中看到的值为 0.42)。

微调模型后,请确保使用以下 kwargs 将其上传到 🤗 Hub

kwargs = {
     "dataset_tags": "PolyAI/minds14",
    "finetuned_from": "openai/whisper-tiny",
    "tasks": "automatic-speech-recognition",
}

如果您的模型的标准化 WER (wer) 低于 0.37,您将通过此作业。

随意构建您的模型的演示,并在 Discord 上分享!如果您有疑问,请在 #audio-study-group 频道中发布。

< > 在 GitHub 上更新