音频课程文档

补充阅读和资源

Hugging Face's logo
加入 Hugging Face 社区

并访问增强的文档体验

开始使用

补充阅读和资源

本单元提供了语音识别的实践介绍,语音识别是音频领域最受欢迎的任务之一。想要了解更多?您将在此处找到其他资源,这些资源将帮助您加深对主题的理解并增强您的学习体验。

  • Whisper Talk,作者:Jong Wook Kim:由 Whisper 作者 Jong Wook Kim 讲解的关于 Whisper 模型的演示,解释了动机、架构、训练和结果
  • 端到端语音基准 (ESB):一篇论文,全面论证了使用正字法 WER 而不是归一化 WER 来评估 ASR 系统,并提出了一个配套的基准
  • 为多语言 ASR 微调 Whisper:一篇深入的博客文章,更详细地解释了 Whisper 模型的工作原理,以及特征提取器和分词器涉及的预处理和后处理步骤
  • 为多语言 ASR 微调 MMS Adapter 模型:一份端到端指南,用于微调 Meta AI 的新MMS语音识别模型,冻结基础模型权重,仅微调少量适配器
  • 在 🤗 Transformers 中使用 n-gram 提升 Wav2Vec2:一篇博客文章,用于将 CTC 模型与外部语言模型 (LM) 结合使用,以纠正拼写和标点错误
< > 在 GitHub 上更新