XLM-V
概述
XLM-V 是一种多语言语言模型,拥有百万级词表,训练数据来自 Common Crawl(与 XLM-R 相同),数据量为 2.5TB。它由 Davis Liang、Hila Gonen、Yuning Mao、Rui Hou、Naman Goyal、Marjan Ghazvininejad、Luke Zettlemoyer 和 Madian Khabsa 在论文 XLM-V:克服多语言掩码语言模型中的词汇瓶颈 中提出。
摘自 XLM-V 论文的摘要
大型多语言语言模型通常依赖于一个跨 100 多种语言共享的单个词表。随着这些模型的参数数量和深度不断增加,词表大小基本保持不变。这种词汇瓶颈限制了 XLM-R 等多语言模型的表示能力。在本文中,我们提出了一种新的方法,通过弱化语言之间词汇重叠较小的标记共享,并分配词汇容量以实现每种语言的充分覆盖,从而扩展到非常大的多语言词表。与 XLM-R 相比,使用我们词表进行的分词通常在语义上更有意义且更短。利用这种改进的词表,我们训练了 XLM-V,这是一个拥有百万级词表的多语言语言模型。XLM-V 在我们测试的每个任务上都优于 XLM-R,这些任务涵盖了从自然语言推理 (XNLI)、问答 (MLQA、XQuAD、TyDiQA) 和命名实体识别 (WikiAnn) 到低资源任务 (美洲 NLI、MasakhaNER)。
该模型由 stefan-it 贡献,包括使用 XLM-V 在下游任务中进行的详细实验。实验代码库可以在这里找到 这里。
使用技巧
- XLM-V 与 XLM-RoBERTa 模型架构兼容,只需要将来自
fairseq
库的模型权重进行转换。 XLMTokenizer
实现用于加载词汇表并执行分词。
一个 XLM-V(基础尺寸)模型可通过 facebook/xlm-v-base
标识符获取。
XLM-V 架构与 XLM-RoBERTa 相同,请参考 XLM-RoBERTa 文档 获取 API 参考和示例。