Transformers 文档
myt5
并获得增强的文档体验
开始使用
myt5
概述
myt5 模型是在 MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling 论文中提出的,作者是 Tomasz Limisiewicz、Terra Blevins、Hila Gonen、Orevaoghene Ahia 和 Luke Zettlemoyer。MyT5 (Myte T5) 是一个基于 T5 架构的多语言模型。该模型使用了我们论文中描述的 **m**orphologically-driven **byte** (MYTE,即形态驱动的字节) 表示法。与 UTF-8 编码中使用的字符不同,MYTE 使用与语素对应的码点。作为先决条件,我们使用了无监督形态学分割(Morfessor)来获取 99 种语言的语素库。然而,当使用 Hub 上预定义的语素库时,不需要进行形态学分割步骤(参见:Tomli/myt5-base)。
论文摘要如下:
多语言模型的一个主要考虑因素是如何最好地表示具有不同词汇和文字的语言。尽管当代的文本编码方法涵盖了世界上大多数的书写系统,但它们对全球西方的资源丰富型语言存在偏见。结果,代表性不足语言的文本往往被分割成一长串没有语言学意义的单位。为了解决这种差异,我们引入了一种新的范式,该范式使用大小一致的片段来编码不同语言中的相同信息。我们的编码约定 (MYTE) 基于语素,因为语素库在不同语言间的平衡性比以往方法中使用的字符更好。我们证明 MYTE 对所有 99 种被分析的语言都能产生更短的编码,对非欧洲语言和非拉丁文字的改进最为显著。这反过来又提高了多语言语言模型的性能,并减少了不同语言之间的困惑度差距。
该模型由 Tomasz Limisiewicz 贡献。原始代码可以在这里找到。
MyT5Tokenizer
class transformers.MyT5Tokenizer
< 源代码 >( vocab_file eos_token = '</s>' unk_token = '<unk>' pad_token = '<pad>' extra_ids = 125 additional_special_tokens = None **kwargs )
参数
- vocab_file (
str
) — 包含字节重写规则的文件。 - eos_token (
str
, 可选, 默认为"</s>"
) — 序列结束标记。 - unk_token (
str
, 可选, 默认为"<unk>"
) — 未知标记。不在词汇表中的标记无法转换为 ID,将被设置为此标记。 - pad_token (
str
, 可选, 默认为"<pad>"
) — 用于填充的标记,例如在批处理不同长度的序列时使用。 - extra_ids (
int
, 可选, 默认为 125) — 在词汇表末尾添加的额外 ID 的数量,用作哨兵标记。这些标记可以作为“id{%d}>”访问,其中“{%d}”是介于 0 和 extra_ids-1 之间的数字。额外标记从词汇表末尾向前索引(“ ”是词汇表中的最后一个标记,类似于 ByT5 预处理,请参阅这里)。 - additional_special_tokens (
list[str]
, 可选) — 分词器使用的其他特殊标记。
构建一个 MyT5 分词器。
此分词器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< 源代码 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]
通过连接和添加特殊标记,从序列或序列对构建用于序列分类任务的模型输入。序列格式如下:
- 单个序列:
X </s>
- 序列对:
A </s> B </s>
get_special_tokens_mask
< 源代码 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → list[int]
从没有添加特殊标记的标记列表中检索序列ID。此方法在使用分词器prepare_for_model
方法添加特殊标记时调用。
create_token_type_ids_from_sequences
< 源代码 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]
根据传入的两个序列创建一个掩码,用于序列对分类任务。MyT5 不使用标记类型 ID,因此返回一个全零列表。
MyT5Tokenizer
class transformers.MyT5Tokenizer
< 源代码 >( vocab_file eos_token = '</s>' unk_token = '<unk>' pad_token = '<pad>' extra_ids = 125 additional_special_tokens = None **kwargs )
参数
- vocab_file (
str
) — 包含字节重写规则的文件。 - eos_token (
str
, 可选, 默认为"</s>"
) — 序列结束标记。 - unk_token (
str
, 可选, 默认为"<unk>"
) — 未知标记。不在词汇表中的标记无法转换为 ID,将被设置为此标记。 - pad_token (
str
, 可选, 默认为"<pad>"
) — 用于填充的标记,例如在批处理不同长度的序列时使用。 - extra_ids (
int
, 可选, 默认为 125) — 在词汇表末尾添加的额外 ID 的数量,用作哨兵标记。这些标记可以作为“id{%d}>”访问,其中“{%d}”是介于 0 和 extra_ids-1 之间的数字。额外标记从词汇表末尾向前索引(“ ”是词汇表中的最后一个标记,类似于 ByT5 预处理,请参阅这里)。 - additional_special_tokens (
list[str]
, 可选) — 分词器使用的其他特殊标记。
构建一个 MyT5 分词器。
此分词器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< 源代码 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]
通过连接和添加特殊标记,从序列或序列对构建用于序列分类任务的模型输入。序列格式如下:
- 单个序列:
X </s>
- 序列对:
A </s> B </s>
将标记序列(字符串)转换为单个字符串。
create_token_type_ids_from_sequences
< 源代码 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]
根据传入的两个序列创建一个掩码,用于序列对分类任务。MyT5 不使用标记类型 ID,因此返回一个全零列表。
get_special_tokens_mask
< 源代码 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → list[int]
从没有添加特殊标记的标记列表中检索序列ID。此方法在使用分词器prepare_for_model
方法添加特殊标记时调用。