Transformers 文档

XLS-R

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始

XLS-R

PyTorch TensorFlow Flax

概述

XLS-R 模型在论文 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale 中被提出,作者包括 Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli。

论文摘要如下:

本文介绍了 XLS-R,一个基于 wav2vec 2.0 的大规模跨语言语音表征学习模型。我们在近 50 万小时的公开语音音频(包含 128 种语言)上训练了参数高达 2B 的模型,这比已知的最大规模的先前工作所用的公开数据多一个数量级。我们的评估涵盖了广泛的任务、领域、数据制度以及高资源和低资源语言。在 CoVoST-2 语音翻译基准测试中,我们使先前最佳水平平均提高了 7.4 BLEU(超过 21 个翻译方向到英语)。对于语音识别,XLS-R 改进了在 BABEL、MLS、CommonVoice 以及 VoxPopuli 上已知的最佳水平,平均降低了 14-34% 的相对错误率。XLS-R 还在 VoxLingua107 语言识别方面创下了新的最佳水平。此外,我们表明,当模型尺寸足够大时,在将英语语音翻译成其他语言时,跨语言预训练可以胜过仅英语预训练,这种情况有利于单语预训练。我们希望 XLS-R 可以帮助改进世界上更多语言的语音处理任务。

相关的 checkpoints 可以在以下链接找到: https://huggingface.co/models?other=xls_r

原始代码可以在这里找到。

使用技巧

  • XLS-R 是一个语音模型,它接受对应于语音信号原始波形的浮点数组。
  • XLS-R 模型使用连接时序分类 (CTC) 进行训练,因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。

XLS-R 的架构基于 Wav2Vec2 模型,API 参考请参阅 Wav2Vec2 的文档页面

< > 在 GitHub 上更新