音频课程文档
补充阅读材料和资源
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
补充阅读和资源
本单元提供了语音识别的实践介绍,语音识别是音频领域最受欢迎的任务之一。想了解更多吗?你可以在这里找到其他资源,帮助你加深对这些主题的理解,并提升你的学习体验。
- Whisper Talk by Jong Wook Kim:Whisper 模型作者 Jong Wook Kim 的一次关于 Whisper 模型的演讲,解释了其动机、架构、训练和结果
- 端到端语音基准 (ESB):一篇全面论证使用正字法 WER 而非标准化 WER 来评估 ASR 系统的论文,并提出了一个配套的基准
- 为多语言 ASR 微调 Whisper:一篇深入的博客文章,更详细地解释了 Whisper 模型的工作原理,以及特征提取器和分词器所涉及的预处理和后处理步骤
- 为多语言 ASR 微调 MMS 适配器模型:一份用于微调 Meta AI 新的 MMS 语音识别模型的端到端指南,冻结基础模型权重,仅微调少量适配器层
- 在 🤗 Transformers 中使用 N-gram 增强 Wav2Vec2:一篇关于将 CTC 模型与外部语言模型 (LM) 结合以解决拼写和标点错误的博客文章