Transformers 文档
ByT5
并获得增强的文档体验
开始使用
ByT5
ByT5 是 T5 模型的无分词器(tokenizer-free)版本,旨在直接处理原始 UTF-8 字节。这意味着它可以处理任何语言,对拼写错误等噪声更具鲁棒性,并且使用起来更简单,因为它不需要预处理管道。
你可以在 Google 组织下找到所有原始的 ByT5 检查点。
请参考 T5 文档,了解如何将 ByT5 应用于不同语言任务的更多示例。
下面的示例演示了如何使用 Pipeline、AutoModel 和命令行生成文本。
import torch
from transformers import pipeline
pipeline = pipeline(
task="text2text-generation",
model="google/byt5-small",
torch_dtype=torch.float16,
device=0
)
pipeline("translate English to French: The weather is nice today")
量化
量化通过以较低精度表示权重来减少大型模型的内存负担。有关更多可用量化后端,请参阅量化概述。
以下示例使用torchao仅将权重量化为int4。
# pip install torchao
import torch
from transformers import TorchAoConfig, AutoModelForSeq2SeqLM, AutoTokenizer
quantization_config = TorchAoConfig("int4_weight_only", group_size=128)
model = AutoModelForSeq2SeqLM.from_pretrained(
"google/byt5-xl",
torch_dtype=torch.bfloat16,
device_map="auto",
quantization_config=quantization_config
)
tokenizer = AutoTokenizer.from_pretrained("google/byt5-xl")
input_ids = tokenizer("translate English to French: The weather is nice today.", return_tensors="pt").to("cuda")
output = model.generate(**input_ids)
print(tokenizer.decode(output[0], skip_special_tokens=True))
注意
建议在批处理推理和训练中使用分词器。
下面的示例展示了如何在不使用分词器的情况下使用该模型。
import torch from transformers import AutoModelForSeq2SeqLM model = AutoModelForSeq2SeqLM.from_pretrained("google/byt5-small") num_special_tokens = 3 input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + num_special_tokens labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + num_special_tokens loss = model(input_ids, labels=labels).loss loss.item()
ByT5 使用最高的字节值(258、257 等)进行掩码,而不是像
{extra_id_0}
这样的哨兵标记。# Example: character-level denoising with mask tokens input_ids = tokenizer("The dog chases a ball in the park.").input_ids masked_input = torch.tensor([input_ids[:8] + [258] + input_ids[14:21] + [257] + input_ids[28:]]) output = model.generate(masked_input, max_length=100)
ByT5Tokenizer
class transformers.ByT5Tokenizer
< 源 >( eos_token = '</s>' unk_token = '<unk>' pad_token = '<pad>' extra_ids = 125 additional_special_tokens = None **kwargs )
参数
- eos_token (
str
,可选,默认为"</s>"
) — 序列结束标记。当使用特殊标记构建序列时,这不是用于序列结束的标记。所使用的标记是 `sep_token`。
- unk_token (
str
,可选,默认为"<unk>"
) — 未知标记。不在词汇表中的标记无法转换为 ID,将被设置为此标记。 - pad_token (
str
,可选,默认为"<pad>"
) — 用于填充的标记,例如在对不同长度的序列进行批处理时使用。 - extra_ids (
int
,可选,默认为 125) — 在词汇表末尾添加的额外 ID 的数量,用作哨兵标记。这些标记可以通过“”访问,其中“{%d}”是介于 0 和 extra_ids-1 之间的数字。额外标记从词汇表末尾向前索引(“ ”是词汇表中的最后一个标记,类似于 ByT5 预处理,请参见此处)。 - additional_special_tokens (
list[str]
,可选) — 分词器使用的附加特殊标记。
构建一个 ByT5 分词器。ByT5 仅使用原始字节的 utf-8 编码。
该分词器继承自 PreTrainedTokenizer,其中包含了大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< 源 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]
通过连接和添加特殊标记,从序列或序列对构建用于序列分类任务的模型输入。序列格式如下:
- 单个序列:
X </s>
- 序列对:
A </s> B </s>
将标记序列(字符串)转换为单个字符串。
create_token_type_ids_from_sequences
< 源 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]
根据传入的两个序列创建掩码,用于序列对分类任务。ByT5 不使用标记类型 ID,因此返回一个全零列表。
get_special_tokens_mask
< 源 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → list[int]
从没有添加特殊标记的标记列表中检索序列ID。此方法在使用分词器prepare_for_model
方法添加特殊标记时调用。