Transformers 文档
XLM-V
并获得增强的文档体验
开始使用
XLM-V
概述
XLM-V 是一个多语言语言模型,拥有百万级词汇量,使用来自 Common Crawl 的 2.5TB 数据进行训练(与 XLM-R 相同)。它在 XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 论文中被介绍,作者是 Davis Liang, Hila Gonen, Yuning Mao, Rui Hou, Naman Goyal, Marjan Ghazvininejad, Luke Zettlemoyer 和 Madian Khabsa。
摘自 XLM-V 论文的摘要
大型多语言语言模型通常依赖于在 100 多种语言之间共享的单个词汇表。随着这些模型在参数数量和深度上的增加,词汇表大小在很大程度上保持不变。这种词汇瓶颈限制了像 XLM-R 这样的多语言模型的表示能力。在本文中,我们介绍了一种新的方法,通过对词汇重叠较少的语言进行词元共享的降级,并分配词汇容量来实现每种语言的充分覆盖,从而扩展到非常大的多语言词汇表。与 XLM-R 相比,使用我们词汇表的词元化通常在语义上更有意义且更短。利用这种改进的词汇表,我们训练了 XLM-V,一个拥有百万级词汇量的多语言语言模型。在我们测试的每个任务中,从自然语言推理 (XNLI)、问答 (MLQA、XQuAD、TyDiQA) 和命名实体识别 (WikiAnn) 到低资源任务 (Americas NLI、MasakhaNER),XLM-V 的性能都优于 XLM-R。
此模型由 stefan-it 贡献,包括关于 XLM-V 在下游任务上的详细实验。实验仓库可以在这里找到。
使用技巧
- XLM-V 与 XLM-RoBERTa 模型架构兼容,只需要转换来自
fairseq
库的模型权重。 XLMTokenizer
实现用于加载词汇表并执行词元化。
XLM-V(基础大小)模型可在 facebook/xlm-v-base
标识符下使用。
XLM-V 架构与 XLM-RoBERTa 相同,有关 API 参考和示例,请参阅 XLM-RoBERTa 文档。