Transformers 文档

XLSR-Wav2Vec2

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

XLSR-Wav2Vec2

PyTorch TensorFlow Flax

概述

XLSR-Wav2Vec2 模型由 Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed、Michael Auli 在《无监督跨语言语音识别表示学习》中提出。

论文摘要如下:

本文介绍了 XLSR,它通过预训练一个单一模型,利用多种语言的原始语音波形来学习跨语言语音表示。我们基于 wav2vec 2.0,该模型通过解决蒙版潜在语音表示上的对比任务进行训练,并联合学习跨语言共享的潜在量化。结果模型在标记数据上进行微调,实验表明跨语言预训练显著优于单语预训练。在 CommonVoice 基准测试中,XLSR 的音素错误率相比已知最佳结果相对降低了 72%。在 BABEL 上,我们的方法相比同类系统将词错误率相对提高了 16%。我们的方法实现了一个多语言语音识别模型,其性能与强大的单一模型相当。分析表明,潜在的离散语音表示在不同语言之间共享,并且相关语言之间的共享程度更高。我们希望通过发布在 53 种语言中预训练的大型模型 XLSR-53,来促进低资源语音理解研究。

原始代码可以在此处找到。

注意:Meta (FAIR) 发布了新版Wav2Vec2-BERT 2.0 - 它在 4.5M 小时音频上进行了预训练。我们特别推荐将其用于微调任务,例如本指南所述。

使用提示

  • XLSR-Wav2Vec2 是一个语音模型,接受对应于语音信号原始波形的浮点数组。
  • XLSR-Wav2Vec2 模型使用连接主义时间分类 (CTC) 进行训练,因此模型输出必须使用Wav2Vec2CTCTokenizer进行解码。

XLSR-Wav2Vec2 的架构基于 Wav2Vec2 模型,因此可以参考Wav2Vec2 的文档页面

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.