Transformers 文档
HerBERT
并获得增强的文档体验
开始使用
HerBERT
概述
HerBERT 模型由 Piotr Rybak、Robert Mroczkowski、Janusz Tracz 和 Ireneusz Gawlik 在论文 KLEJ: 波兰语理解综合基准 中提出。它是一个基于 BERT 的语言模型,在波兰语语料库上训练,仅使用 MLM 目标和动态全词掩码。
论文摘要如下:
近年来,一系列基于 Transformer 的模型在通用自然语言理解 (NLU) 任务中取得了重大进展。如果没有通用的 NLU 基准测试,如此快的研究步伐是不可能实现的,因为这些基准测试可以对所提出的方法进行公平的比较。然而,这样的基准测试仅适用于少数语言。为了缓解这个问题,我们引入了一个全面的多任务波兰语理解基准,并附有一个在线排行榜。它包含一系列多样化的任务,这些任务改编自现有的命名实体识别、问答、文本蕴含等数据集。我们还为电子商务领域引入了一个新的情感分析任务,名为 Allegro Reviews (AR)。为确保共同的评估方案并推广能够泛化到不同 NLU 任务的模型,该基准包含了来自不同领域和应用的数据集。此外,我们发布了 HerBERT,这是一个专门为波兰语训练的基于 Transformer 的模型,它具有最佳的平均性能,并在九个任务中的三个任务上取得了最佳结果。最后,我们提供了广泛的评估,包括几个标准基线和最近提出的多语言 Transformer 模型。
此模型由 rmroczkowski 贡献。原始代码可以在此处找到。
用法示例
>>> from transformers import HerbertTokenizer, RobertaModel
>>> tokenizer = HerbertTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
>>> model = RobertaModel.from_pretrained("allegro/herbert-klej-cased-v1")
>>> encoded_input = tokenizer.encode("Kto ma lepszą sztukę, ma lepszy rząd – to jasne.", return_tensors="pt")
>>> outputs = model(encoded_input)
>>> # HerBERT can also be loaded using AutoTokenizer and AutoModel:
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
>>> model = AutoModel.from_pretrained("allegro/herbert-klej-cased-v1")
Herbert 的实现与 BERT
相同,除了分词方法。有关 API 参考和示例,请参阅 BERT 文档。
HerbertTokenizer
class transformers.HerbertTokenizer
< 来源 >( vocab_file merges_file tokenizer_file = None cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' sep_token = '</s>' bos_token = '<s>' do_lowercase_and_remove_accent = False additional_special_tokens = ['<special0>', '<special1>', '<special2>', '<special3>', '<special4>', '<special5>', '<special6>', '<special7>', '<special8>', '<special9>'] lang2id = None id2lang = None **kwargs )
为 HerBERT 构建一个 BPE 分词器。
特点
使用 BERT 的预分词器:BaseTokenizer 在空格和标点符号上分割词元。每个标点符号的出现都将被单独处理。
这种预分词后的输入会进行 BPE 子词元化
该分词器继承自 XLMTokenizer,其中包含大部分方法。用户应参考超类以获取有关方法的更多信息。
build_inputs_with_special_tokens
< 来源 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → List[int]
通过连接和添加特殊词元,为序列分类任务从一个序列或一对序列构建模型输入。XLM 序列具有以下格式
- 单个序列:
<s> X </s>
- 序列对:
<s> A </s> B </s>
将标记序列(字符串)转换为单个字符串。
get_special_tokens_mask
< 来源 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊标记的标记列表中检索序列ID。此方法在使用分词器prepare_for_model
方法添加特殊标记时调用。
HerbertTokenizerFast
class transformers.HerbertTokenizerFast
< 来源 >( vocab_file = None merges_file = None tokenizer_file = None cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' sep_token = '</s>' **kwargs )
为 HerBERT 构建一个“快速” BPE 分词器 (由 HuggingFace 的 *tokenizers* 库支持)。
特点
- 使用 BERT 的预分词器:BertPreTokenizer 在空格和标点符号上分割词元。每个标点符号的出现都将被单独处理。
该分词器继承自 PreTrainedTokenizer,其中包含大部分方法。用户应参考超类以获取有关方法的更多信息。
build_inputs_with_special_tokens
< 来源 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → List[int]
通过连接和添加特殊词元,为序列分类任务从一个序列或一对序列构建模型输入。HerBERT,像 BERT 序列一样,具有以下格式
- 单个序列:
<s> X </s>
- 序列对:
<s> A </s> B </s>
get_special_tokens_mask
< 来源 >( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊标记的标记列表中检索序列ID。此方法在使用分词器prepare_for_model
方法添加特殊标记时调用。