Transformers 文档
XLS-R
并获得增强的文档体验
开始使用
XLS-R
概述
XLS-R 模型由 Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino、Alexei Baevski、Alexis Conneau、Michael Auli 在XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale 中提出。
论文摘要如下:
本文介绍了 XLS-R,一个基于 wav2vec 2.0 的大规模跨语言语音表示学习模型。我们训练的模型参数多达 2B,使用了 128 种语言的近五十万小时公开语音数据,比已知最大的先行工作多了一个数量级的公开数据。我们的评估涵盖了广泛的任务、领域、数据状况和语言,包括高资源和低资源语言。在 CoVoST-2 语音翻译基准测试中,我们对 21 个翻译方向到英语的平均 BLEU 值提高了 7.4。对于语音识别,XLS-R 在 BABEL、MLS、CommonVoice 以及 VoxPopuli 上优于已知最佳先行工作,平均错误率相对降低了 14-34%。XLS-R 还在 VoxLingua107 语言识别上创下了新的最先进水平。此外,我们还表明,在模型规模足够大的情况下,当将英语语音翻译成其他语言时,跨语言预训练可以超越仅英语预训练,尽管此设置有利于单语预训练。我们希望 XLS-R 能帮助改善世界上更多语言的语音处理任务。
相关检查点可在 https://huggingface.co/models?other=xls_r 找到。
原始代码可以在此处找到。
使用技巧
- XLS-R 是一个语音模型,接受对应于语音信号原始波形的浮点数组。
- XLS-R 模型使用连接主义时间分类(CTC)进行训练,因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。
XLS-R 的架构基于 Wav2Vec2 模型,请参阅 Wav2Vec2 的文档页面 以获取 API 参考。