Transformers 文档
XLSR-Wav2Vec2
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
XLSR-Wav2Vec2
概述
XLSR-Wav2Vec2 模型由 Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli 在 Unsupervised Cross-Lingual Representation Learning For Speech Recognition 中提出。
论文摘要如下:
本文介绍了 XLSR,它通过从多种语言的原始语音波形中预训练单个模型来学习跨语言语音表示。我们以 wav2vec 2.0 为基础,它通过解决跨掩码潜在语音表示的对比任务进行训练,并联合学习跨语言共享的潜在表示的量化。结果模型在标记数据上进行微调,实验表明,跨语言预训练显着优于单语预训练。在 CommonVoice 基准测试中,与已知的最佳结果相比,XLSR 显示相对音素错误率降低了 72%。在 BABEL 上,与可比较的系统相比,我们的方法将词错误率相对提高了 16%。我们的方法支持单个多语言语音识别模型,该模型与强大的单个模型具有竞争力。分析表明,潜在的离散语音表示在语言之间共享,相关语言的共享程度更高。我们希望通过发布 XLSR-53(一个在 53 种语言中预训练的大型模型)来促进低资源语音理解的研究。
原始代码可以在这里找到。
注意:Meta (FAIR) 发布了新版本的 Wav2Vec2-BERT 2.0 - 它在 4.5M 小时的音频上进行了预训练。我们特别建议将其用于微调任务,例如根据 本指南。
使用技巧
- XLSR-Wav2Vec2 是一个语音模型,它接受与语音信号的原始波形相对应的浮点数组。
- XLSR-Wav2Vec2 模型使用连接时序分类 (CTC) 进行训练,因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。
XLSR-Wav2Vec2 的架构基于 Wav2Vec2 模型,因此可以参考 Wav2Vec2 的文档页面。