Transformers 文档

MBart 和 MBart-50

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

MBart 和 MBart-50

MBart 概述

MBart 模型在用于神经机器翻译的多语言去噪预训练一文中被提出，作者是 Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer。

根据摘要，MBART 是一个序列到序列的去噪自编码器，它使用 BART 目标函数，在多种语言的大规模单语语料库上进行了预训练。 mBART 是首批通过在多种语言中对完整文本进行去噪来预训练完整序列到序列模型的方法之一，而以前的方法仅侧重于编码器、解码器或重建部分文本。

此模型由 valhalla 贡献。作者的代码可以在这里找到

MBart 的训练

MBart 是一个多语言编码器-解码器（序列到序列）模型，主要用于翻译任务。由于该模型是多语言的，因此它期望序列采用不同的格式。特殊的语言 ID 令牌被添加到源文本和目标文本中。源文本格式为 X [eos, src_lang_code]，其中 X 是源文本。目标文本格式为 [tgt_lang_code] X [eos]。从不使用 bos。

常规的 call() 将对作为第一个参数或使用 text 关键字传递的源文本格式进行编码，并对使用 text_label 关键字参数传递的目标文本格式进行编码。

监督式训练

>>> from transformers import MBartForConditionalGeneration, MBartTokenizer

>>> tokenizer = MBartTokenizer.from_pretrained("facebook/mbart-large-en-ro", src_lang="en_XX", tgt_lang="ro_RO")
>>> example_english_phrase = "UN Chief Says There Is No Military Solution in Syria"
>>> expected_translation_romanian = "Şeful ONU declară că nu există o soluţie militară în Siria"

>>> inputs = tokenizer(example_english_phrase, text_target=expected_translation_romanian, return_tensors="pt")

>>> model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-en-ro")
>>> # forward pass
>>> model(**inputs)

生成

在生成目标文本时，将 decoder_start_token_id 设置为目标语言 ID。以下示例展示了如何使用 facebook/mbart-large-en-ro 模型将英语翻译成罗马尼亚语。

>>> from transformers import MBartForConditionalGeneration, MBartTokenizer

>>> tokenizer = MBartTokenizer.from_pretrained("facebook/mbart-large-en-ro", src_lang="en_XX")
>>> article = "UN Chief Says There Is No Military Solution in Syria"
>>> inputs = tokenizer(article, return_tensors="pt")
>>> translated_tokens = model.generate(**inputs, decoder_start_token_id=tokenizer.lang_code_to_id["ro_RO"])
>>> tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
"Şeful ONU declară că nu există o soluţie militară în Siria"

MBart-50 概述

MBart-50 在使用可扩展的多语言预训练和微调进行多语言翻译论文中被介绍，作者是 Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan。 MBart-50 是通过扩展原始 mbart-large-cc25 检查点的嵌入层，为额外的 25 个语言令牌随机初始化向量，然后在 50 种语言上进行预训练而创建的。

根据摘要

可以通过多语言微调创建多语言翻译模型。预训练模型不是在一个方向上进行微调，而是在多个方向上同时进行微调。它表明，预训练模型可以扩展到包含其他语言，而不会损失性能。多语言微调平均比最强的基线（从头开始的多语言或双语微调）提高了 1 个 BLEU，同时平均比从头开始的双语基线提高了 9.3 个 BLEU。

MBart-50 的训练

MBart-50 的文本格式与 mBART 略有不同。对于 MBart-50，语言 ID 令牌用作源文本和目标文本的前缀，即文本格式为 [lang_code] X [eos]，其中 lang_code 是源文本的源语言 ID 和目标文本的目标语言 ID，其中 X 分别是源文本或目标文本。

MBart-50 有其自己的分词器 MBart50Tokenizer。

监督式训练

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50", src_lang="en_XX", tgt_lang="ro_RO")

src_text = " UN Chief Says There Is No Military Solution in Syria"
tgt_text = "Şeful ONU declară că nu există o soluţie militară în Siria"

model_inputs = tokenizer(src_text, text_target=tgt_text, return_tensors="pt")

model(**model_inputs)  # forward pass

生成

要使用 mBART-50 多语言翻译模型进行生成，eos_token_id 用作 decoder_start_token_id，并且强制将目标语言 ID 作为第一个生成的令牌。要强制将目标语言 ID 作为第一个生成的令牌，请将 forced_bos_token_id 参数传递给 generate 方法。以下示例展示了如何使用 facebook/mbart-50-large-many-to-many 检查点在印地语到法语和阿拉伯语到英语之间进行翻译。

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

article_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
article_ar = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا."

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

# translate Hindi to French
tokenizer.src_lang = "hi_IN"
encoded_hi = tokenizer(article_hi, return_tensors="pt")
generated_tokens = model.generate(**encoded_hi, forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"])
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "Le chef de l 'ONU affirme qu 'il n 'y a pas de solution militaire en Syria."

# translate Arabic to English
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(article_ar, return_tensors="pt")
generated_tokens = model.generate(**encoded_ar, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"])
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "The Secretary-General of the United Nations says there is no military solution in Syria."

Transformers

MBart 和 MBart-50

MBart 概述

MBart 的训练

MBart-50 概述

MBart-50 的训练

文档资源

MBartConfig

class transformers.MBartConfig

MBartTokenizer

class transformers.MBartTokenizer

build_inputs_with_special_tokens

MBartTokenizerFast

class transformers.MBartTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

set_src_lang_special_tokens

set_tgt_lang_special_tokens

MBart50Tokenizer

class transformers.MBart50Tokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

get_special_tokens_mask

set_src_lang_special_tokens

set_tgt_lang_special_tokens

MBart50TokenizerFast

class transformers.MBart50TokenizerFast

build_inputs_with_special_tokens

set_src_lang_special_tokens

set_tgt_lang_special_tokens

MBartModel

class transformers.MBartModel

forward

MBartForConditionalGeneration

class transformers.MBartForConditionalGeneration

forward

MBartForQuestionAnswering

class transformers.MBartForQuestionAnswering

forward

MBartForSequenceClassification

class transformers.MBartForSequenceClassification

forward

MBartForCausalLM

class transformers.MBartForCausalLM

forward

TFMBartModel

class transformers.TFMBartModel

call

TFMBartForConditionalGeneration

类 transformers.TFMBartForConditionalGeneration

call

FlaxMBartModel

class transformers.FlaxMBartModel

__call__

encode

decode

FlaxMBartForConditionalGeneration

class transformers.FlaxMBartForConditionalGeneration

__call__

encode

decode

FlaxMBartForSequenceClassification

class transformers.FlaxMBartForSequenceClassification

__call__

encode

decode

FlaxMBartForQuestionAnswering

class transformers.FlaxMBartForQuestionAnswering

__call__

encode

decode

call

call

call

call