XLSR-Wav2Vec2
概述
XLSR-Wav2Vec2 模型在 用于语音识别的无监督跨语言表示学习 中提出,由 Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed、Michael Auli 共同撰写。
论文摘要如下
本文介绍了 XLSR,它通过从多种语言的语音原始波形中预训练单个模型来学习跨语言语音表示。我们基于 wav2vec 2.0,它通过解决掩码潜在语音表示的对比任务进行训练,并联合学习跨语言共享的潜在量化。生成的模型在标记数据上进行微调,实验表明跨语言预训练显著优于单语预训练。在 CommonVoice 基准测试中,XLSR 表明相对于最知名的结果,音素错误率降低了 72%。在 BABEL 中,我们的方法将词错误率相对提高了 16%,与可比系统相比。我们的方法使单个多语言语音识别模型能够与强大的个体模型相媲美。分析表明,潜在的离散语音表示在多种语言之间共享,并且在相关语言之间共享程度更高。我们希望通过发布 XLSR-53,一个在 53 种语言中预训练的大模型,来推动低资源语音理解的研究。
原始代码可在 此处 找到。
注意:Meta (FAIR) 发布了 Wav2Vec2-BERT 2.0 的新版本,它在 450 万小时的音频上进行了预训练。我们特别建议将其用于微调任务,例如,根据 本指南。
使用技巧
- XLSR-Wav2Vec2 是一种语音模型,它接受对应于语音信号原始波形的浮点数组。
- XLSR-Wav2Vec2 模型使用连接时序分类 (CTC) 进行训练,因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。
XLSR-Wav2Vec2 的架构基于 Wav2Vec2 模型,因此可以参考 Wav2Vec2 的文档页面。