XLS-R
概述
XLS-R 模型在 XLS-R:基于大规模的自监督跨语言语音表示学习 中提出,作者为 Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino、Alexei Baevski、Alexis Conneau、Michael Auli。
论文摘要如下:
本文介绍了 XLS-R,这是一种基于 wav2vec 2.0 的大规模跨语言语音表示学习模型。我们在近 50 万小时的公开语音音频数据(涵盖 128 种语言)上训练了具有高达 20 亿参数的模型,公开数据的规模比已知最大规模的先前工作高出一个数量级。我们的评估涵盖了各种任务、领域、数据机制和语言,包括高资源和低资源语言。在 CoVoST-2 语音翻译基准测试中,我们相较于之前最先进的技术,在 21 个翻译方向(翻译成英语)上平均提高了 7.4 个 BLEU 分数。在语音识别方面,XLS-R 在 BABEL、MLS、CommonVoice 以及 VoxPopuli 上都优于已知最佳的先前工作,平均相对降低了 14-34% 的错误率。XLS-R 还为 VoxLingua107 语言识别设定了新的最先进水平。此外,我们还表明,在将英语语音翻译成其他语言时,通过足够的模型大小,跨语言预训练可以胜过仅限英语的预训练,这是一种有利于单语预训练的设置。我们希望 XLS-R 可以帮助改善世界上更多语言的语音处理任务。
相关的检查点可以在 https://huggingface.co/models?other=xls_r 中找到。
原始代码可以在这里找到 这里。
使用技巧
- XLS-R 是一种语音模型,它接受一个浮点数数组,该数组对应于语音信号的原始波形。
- XLS-R 模型使用连接时序分类(CTC)进行训练,因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。
XLS-R 的架构基于 Wav2Vec2 模型,有关 API 参考,请参阅 Wav2Vec2 的文档页面。