Transformers 文档

XLM-V

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

XLM-V

PyTorch TensorFlow Flax

概述

XLM-V 是一种多语言语言模型,拥有百万词汇量,在来自 Common Crawl(与 XLM-R 相同)的 2.5TB 数据上进行训练。它由 Davis Liang、Hila Gonen、Yuning Mao、Rui Hou、Naman Goyal、Marjan Ghazvininejad、Luke Zettlemoyer 和 Madian Khabsa 在 XLM-V:克服多语言掩码语言模型中的词汇瓶颈 论文中提出。

摘自 XLM-V 论文摘要:

大型多语言语言模型通常依赖于一个在 100 多种语言中共享的单一词汇表。随着这些模型参数数量和深度的增加,词汇量基本保持不变。这种词汇瓶颈限制了 XLM-R 等多语言模型的表示能力。在本文中,我们引入了一种新方法,用于扩展到非常大的多语言词汇表,其方法是:弱化词汇重叠度低的语言之间的词元共享,并分配词汇容量以实现对每种单独语言的充分覆盖。使用我们词汇表的词元化通常比 XLM-R 更具语义意义且更短。利用这种改进的词汇表,我们训练了 XLM-V,一个拥有百万词汇量的多语言语言模型。XLM-V 在我们测试的每一项任务中都优于 XLM-R,包括自然语言推理(XNLI)、问答(MLQA、XQuAD、TyDiQA)和命名实体识别(WikiAnn),以及低资源任务(Americas NLI、MasakhaNER)。

该模型由 stefan-it 贡献,包括对 XLM-V 在下游任务上的详细实验。实验仓库可在 此处 找到。

使用技巧

  • XLM-V 与 XLM-RoBERTa 模型架构兼容,只需转换 fairseq 库中的模型权重即可。
  • XLMTokenizer 实现用于加载词汇表并执行词元化。

XLM-V(基础大小)模型可在 facebook/xlm-v-base 标识符下找到。

XLM-V 架构与 XLM-RoBERTa 相同,API 参考和示例请参阅 XLM-RoBERTa 文档

< > 在 GitHub 上更新