Transformers 文档

XLM

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

XLM

概述

XLM 模型由 Guillaume Lample 和 Alexis Conneau 在Cross-lingual Language Model Pretraining中提出。它是一个使用以下目标之一进行预训练的 Transformer 模型：

因果语言建模 (CLM) 目标（下一个 token 预测），
掩码语言建模 (MLM) 目标（类似 BERT），或
翻译语言建模 (TLM) 对象（BERT 的 MLM 扩展到多语言输入）

该论文的摘要如下：

最近的研究表明，生成式预训练对于英语自然语言理解的效率很高。在这项工作中，我们将这种方法扩展到多种语言，并展示了跨语言预训练的有效性。我们提出了两种学习跨语言语言模型 (XLM) 的方法：一种是无监督的，仅依赖于单语数据；另一种是有监督的，利用并行数据和一个新的跨语言语言模型目标。我们在跨语言分类、无监督和有监督机器翻译方面取得了最先进的结果。在 XNLI 上，我们的方法将最先进水平绝对提高了 4.9% 的准确率。在无监督机器翻译方面，我们在 WMT'16 德语-英语上获得了 34.3 BLEU，比之前的最先进水平提高了 9 个 BLEU 以上。在有监督机器翻译方面，我们在 WMT'16 罗马尼亚语-英语上获得了 38.5 BLEU 的新最先进水平，比之前的最佳方法高出 4 个 BLEU 以上。我们的代码和预训练模型将公开提供。

此模型由 thomwolf 贡献。原始代码可以在这里找到。

使用技巧

XLM 有许多不同的检查点，这些检查点是使用不同的目标训练的：CLM、MLM 或 TLM。请确保为您的任务选择正确的目标（例如，MLM 检查点不适合生成）。
XLM 具有利用特定 lang 参数的多语言检查点。请查看多语言页面以获取更多信息。
一个在多种语言上训练的 Transformer 模型。此模型有三种不同的训练类型，库为所有类型都提供了检查点。
- 因果语言建模 (CLM)，这是传统的自回归训练（因此此模型也可以放在上一节中）。每训练样本选择一种语言，模型输入是一个 256 个 token 的句子，该句子可能跨越这些语言之一的多个文档。
- 掩码语言建模 (MLM)，类似于 RoBERTa。每训练样本选择一种语言，模型输入是一个 256 个 token 的句子，该句子可能跨越这些语言之一的多个文档，并动态掩码 token。
- MLM 和翻译语言建模 (TLM) 的组合。这包括连接两种不同语言的句子，并进行随机掩码。为了预测其中一个被掩码的 token，模型可以使用语言 1 中的周围上下文和语言 2 提供的上下文。

Transformers

XLM

概述

使用技巧

资源

XLMConfig

class transformers.XLMConfig

XLMTokenizer

class transformers.XLMTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

XLM 特定输出

class transformers.models.xlm.modeling_xlm.XLMForQuestionAnsweringOutput

XLMModel

class transformers.XLMModel

forward

XLMWithLMHeadModel

class transformers.XLMWithLMHeadModel

forward

XLMForSequenceClassification

class transformers.XLMForSequenceClassification

forward

XLMForMultipleChoice

class transformers.XLMForMultipleChoice

forward

XLMForTokenClassification

class transformers.XLMForTokenClassification

forward

XLMForQuestionAnsweringSimple

class transformers.XLMForQuestionAnsweringSimple

forward

XLMForQuestionAnswering

class transformers.XLMForQuestionAnswering

forward

TFXLMModel

class transformers.TFXLMModel

call

TFXLMWithLMHeadModel

class transformers.TFXLMWithLMHeadModel

call

TFXLMForSequenceClassification

class transformers.TFXLMForSequenceClassification

call

TFXLMForMultipleChoice

class transformers.TFXLMForMultipleChoice

call

TFXLMForTokenClassification

类 transformers.TFXLMForTokenClassification

call

TFXLMForQuestionAnsweringSimple

类 transformers.TFXLMForQuestionAnsweringSimple

call