Transformers 文档

mT5

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

mT5

概述

mT5 模型由 Linting Xue、Noah Constant、Adam Roberts、Mihir Kale、Rami Al-Rfou、Aditya Siddhant、Aditya Barua、Colin Raffel 在论文 mT5：一个大规模多语言预训练文本到文本转换器中提出。

论文摘要如下：

最近，“文本到文本迁移转换器”（T5）利用统一的文本到文本格式和规模，在各种英语自然语言处理任务上取得了最先进的结果。在本文中，我们介绍了 mT5，它是 T5 的一个多语言变体，它在一个基于 Common Crawl 的新数据集上进行了预训练，该数据集涵盖了 101 种语言。我们详细介绍了 mT5 的设计和改进的训练方法，并展示了其在许多多语言基准测试中的最先进性能。我们还描述了一种简单的技术，用于在零样本设置下防止“意外翻译”，即生成模型选择（部分）将其预测翻译成错误的语言。本工作中使用的所有代码和模型检查点都已公开可用。

注意：mT5 仅在 mC4 上进行了预训练，不包含任何有监督的训练。因此，与原始的 T5 模型不同，该模型在使用于下游任务之前必须进行微调。由于 mT5 是无监督预训练的，因此在单任务微调期间使用任务前缀并没有实际的好处。如果您正在进行多任务微调，则应使用前缀。

Google 发布了以下变体：

该模型由 patrickvonplaten 贡献。原始代码可以在这里找到。

资源

MT5Config

class transformers.MT5Config

< 源 >

( vocab_size = 250112 d_model = 512 d_kv = 64 d_ff = 1024 num_layers = 8 num_decoder_layers = None num_heads = 6 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 dropout_rate = 0.1 layer_norm_epsilon = 1e-06 initializer_factor = 1.0 feed_forward_proj = 'gated-gelu' is_encoder_decoder = True use_cache = True tokenizer_class = 'T5Tokenizer' tie_word_embeddings = False pad_token_id = 0 eos_token_id = 1 decoder_start_token_id = 0 classifier_dropout = 0.0 **kwargs )

参数

vocab_size (int, 可选, 默认为 250112) — T5 模型的词汇表大小。定义了在调用 T5Model 或 TFT5Model 时，可以通过 inputs_ids 表示的不同 token 的数量。
d_model (int, 可选, 默认为 512) — 编码器层和池化层的大小。
d_kv (int, 可选, 默认为 64) — 每个注意力头中键、查询、值投影的大小。在传统情况下，通常期望 `d_kv` 等于 `d_model // num_heads`。但在 mt5-small 的架构中，`d_kv` 不等于 `d_model // num_heads`。投影层的 `inner_dim` 将定义为 `num_heads * d_kv`。
d_ff (int, 可选, 默认为 1024) — 每个 `T5Block` 中中间前馈层的大小。
num_layers (int, 可选, 默认为 8) — Transformer 编码器中的隐藏层数量。
num_decoder_layers (int, 可选) — Transformer 解码器中的隐藏层数量。如果未设置，将使用与 `num_layers` 相同的值。
num_heads (int, 可选, 默认为 6) — Transformer 编码器中每个注意力层的注意力头数量。
relative_attention_num_buckets (int, 可选, 默认为 32) — 用于每个注意力层的桶（bucket）的数量。
relative_attention_max_distance (int, 可选, 默认为 128) — 用于桶分离的较长序列的最大距离。
dropout_rate (float, 可选, 默认为 0.1) — 所有 dropout 层的比率。
classifier_dropout (float, 可选, 默认为 0.0) — 分类器的 dropout 比率。
layer_norm_eps (float, 可选, 默认为 1e-6) — 层归一化层使用的 epsilon 值。
initializer_factor (float, 可选, 默认为 1) — 用于初始化所有权重矩阵的因子（应保持为 1，内部用于初始化测试）。
feed_forward_proj (string, 可选, 默认为 "gated-gelu") — 要使用的前馈层类型。应为 "relu" 或 "gated-gelu" 之一。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后一个键/值注意力（并非所有模型都使用）。

这是一个用于存储 MT5Model 或 TFMT5Model 配置的配置类。它用于根据指定的参数实例化一个 mT5 模型，定义模型架构。使用默认值实例化一个配置将产生与 mT5 google/mt5-small 架构相似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

MT5Tokenizer

class transformers.MT5Tokenizer

< 源 >

( vocab_file eos_token = '</s>' unk_token = '<unk>' pad_token = '<pad>' extra_ids = 100 additional_special_tokens = None sp_model_kwargs: typing.Optional[dict[str, typing.Any]] = None legacy = None add_prefix_space = True **kwargs )

查看 T5Tokenizer 了解所有详细信息。

MT5TokenizerFast

class transformers.MT5TokenizerFast

< 源 >

( vocab_file = None tokenizer_file = None eos_token = '</s>' unk_token = '<unk>' pad_token = '<pad>' extra_ids = 100 additional_special_tokens = None add_prefix_space = None **kwargs )

有关所有详细信息，请参阅 T5TokenizerFast。

Pytorch

隐藏 Pytorch 内容

Transformers

mT5

概述

资源

MT5Config

class transformers.MT5Config

MT5Tokenizer

class transformers.MT5Tokenizer

MT5TokenizerFast

class transformers.MT5TokenizerFast

MT5Model

class transformers.MT5Model

deparallelize

forward

parallelize

MT5ForConditionalGeneration

class transformers.MT5ForConditionalGeneration

deparallelize

forward

parallelize

MT5EncoderModel

class transformers.MT5EncoderModel

deparallelize

forward

parallelize

MT5ForSequenceClassification

class transformers.MT5ForSequenceClassification

forward

MT5ForTokenClassification

class transformers.MT5ForTokenClassification

forward

MT5ForQuestionAnswering

class transformers.MT5ForQuestionAnswering

forward

TFMT5Model

class transformers.TFMT5Model

TFMT5ForConditionalGeneration

class transformers.TFMT5ForConditionalGeneration

TFMT5EncoderModel

class transformers.TFMT5EncoderModel

FlaxMT5Model

class transformers.FlaxMT5Model

FlaxMT5ForConditionalGeneration

class transformers.FlaxMT5ForConditionalGeneration

FlaxMT5EncoderModel

class transformers.FlaxMT5EncoderModel