Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作开发模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

XLM-V

概述

XLM-V 是一个多语言语言模型，拥有百万级词汇量，使用来自 Common Crawl 的 2.5TB 数据进行训练（与 XLM-R 相同）。它在 XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 论文中被介绍，作者是 Davis Liang, Hila Gonen, Yuning Mao, Rui Hou, Naman Goyal, Marjan Ghazvininejad, Luke Zettlemoyer 和 Madian Khabsa。

摘自 XLM-V 论文的摘要

大型多语言语言模型通常依赖于在 100 多种语言之间共享的单个词汇表。随着这些模型在参数数量和深度上的增加，词汇表大小在很大程度上保持不变。这种词汇瓶颈限制了像 XLM-R 这样的多语言模型的表示能力。在本文中，我们介绍了一种新的方法，通过对词汇重叠较少的语言进行词元共享的降级，并分配词汇容量来实现每种语言的充分覆盖，从而扩展到非常大的多语言词汇表。与 XLM-R 相比，使用我们词汇表的词元化通常在语义上更有意义且更短。利用这种改进的词汇表，我们训练了 XLM-V，一个拥有百万级词汇量的多语言语言模型。在我们测试的每个任务中，从自然语言推理 (XNLI)、问答 (MLQA、XQuAD、TyDiQA) 和命名实体识别 (WikiAnn) 到低资源任务 (Americas NLI、MasakhaNER)，XLM-V 的性能都优于 XLM-R。

此模型由 stefan-it 贡献，包括关于 XLM-V 在下游任务上的详细实验。实验仓库可以在这里找到。

使用技巧

XLM-V 与 XLM-RoBERTa 模型架构兼容，只需要转换来自 fairseq 库的模型权重。
XLMTokenizer 实现用于加载词汇表并执行词元化。

XLM-V（基础大小）模型可在 facebook/xlm-v-base 标识符下使用。

XLM-V 架构与 XLM-RoBERTa 相同，有关 API 参考和示例，请参阅 XLM-RoBERTa 文档。

< > 在 GitHub 上更新

←XLM-RoBERTa-XL XLNet→