补充阅读和资源

本单元提供了语音识别的实践介绍，语音识别是音频领域最受欢迎的任务之一。想了解更多吗？你可以在这里找到其他资源，帮助你加深对这些主题的理解，并提升你的学习体验。

Whisper Talk by Jong Wook Kim：Whisper 模型作者 Jong Wook Kim 的一次关于 Whisper 模型的演讲，解释了其动机、架构、训练和结果
端到端语音基准 (ESB)：一篇全面论证使用正字法 WER 而非标准化 WER 来评估 ASR 系统的论文，并提出了一个配套的基准
为多语言 ASR 微调 Whisper：一篇深入的博客文章，更详细地解释了 Whisper 模型的工作原理，以及特征提取器和分词器所涉及的预处理和后处理步骤
为多语言 ASR 微调 MMS 适配器模型：一份用于微调 Meta AI 新的 MMS 语音识别模型的端到端指南，冻结基础模型权重，仅微调少量适配器层
在 🤗 Transformers 中使用 N-gram 增强 Wav2Vec2：一篇关于将 CTC 模型与外部语言模型 (LM) 结合以解决拼写和标点错误的博客文章

音频课程