补充阅读和资源
本单元提供了一个关于语音识别的动手入门,语音识别是音频领域中最流行的任务之一。想了解更多信息?这里你将找到额外的资源,帮助你加深对主题的理解并提升你的学习体验。
- Whisper Talk 由 Jong Wook Kim 主讲:介绍了 Whisper 模型,解释了其动机、架构、训练和结果,由 Whisper 作者 Jong Wook Kim 演讲。
- 端到端语音基准 (ESB):一篇论文,全面论证了使用正字法 WER 而不是规范化 WER 来评估 ASR 系统的必要性,并提出了一个配套的基准。
- 针对多语言 ASR 微调 Whisper:一篇深入的博文,详细解释了 Whisper 模型的工作原理,以及特征提取器和分词器涉及的预处理和后处理步骤。
- 针对多语言 ASR 微调 MMS Adapter 模型:针对 Meta AI 的新 MMS 语音识别模型进行端到端微调的指南,冻结基本模型权重,仅微调少量“适配器”层。
- 在 🤗 Transformers 中使用 n 元语法增强 Wav2Vec2:一篇博文,介绍了将 CTC 模型与外部语言模型 (LM) 相结合以解决拼写和标点符号错误的方法。