Transformers 文档
XLM-V
并获得增强的文档体验
开始使用
该模型于 2023-01-25 发布,并于 2023-06-20 添加到 Hugging Face Transformers。
XLM-V
概述
XLM-V 是一个多语言语言模型,拥有百万级词汇量,在 2.5TB 的 Common Crawl 数据(与 XLM-R 相同)上进行了训练。该模型在 XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 这篇论文中被提出,作者是 Davis Liang、Hila Gonen、Yuning Mao、Rui Hou、Naman Goyal、Marjan Ghazvininejad、Luke Zettlemoyer 和 Madian Khabsa。
来自 XLM-V 论文的摘要
大型多语言语言模型通常依赖于跨越 100 多种语言共享的单个词汇表。随着这些模型参数量和深度的增加,词汇量大小在很大程度上保持不变。这种词汇瓶颈限制了 XLM-R 等多语言模型的表征能力。在本文中,我们通过弱化词汇重叠很少的语言之间的词元共享,并分配词汇容量以确保每种语言有足够的覆盖范围,来引入一种扩展到非常大的多语言词汇量的新方法。使用我们的词汇表进行的词元化通常比 XLM-R 更具语义意义且更短。利用这个改进的词汇表,我们训练了 XLM-V,一个拥有百万级词汇量的多语言语言模型。在我们测试的从自然语言推理(XNLI)、问答(MLQA、XQuAD、TyDiQA)和命名实体识别(WikiAnn)到低资源任务(Americas NLI、MasakhaNER)的各项任务上,XLM-V 的表现都优于 XLM-R。
该模型由 stefan-it 贡献,包括对 XLM-V 在下游任务上的详细实验。实验仓库可以在 这里 找到。
使用技巧
- XLM-V 与 XLM-RoBERTa 模型架构兼容,只需转换
fairseq库的模型权重。 - 使用
XLMTokenizer实现来加载词汇表并执行词元化。
XLM-V(基础版)模型可在 facebook/xlm-v-base 标识符下获取。
在 GitHub 上更新XLM-V 架构与 XLM-RoBERTa 相同,请参阅 XLM-RoBERTa 文档 以获取 API 参考和示例。