Transformers 文档

RetriBERT

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始

RetriBERT

PyTorch

此模型目前仅处于维护模式,因此我们不接受任何更改其代码的新 PR。

如果您在运行此模型时遇到任何问题,请重新安装支持此模型的最后一个版本:v4.30.0。您可以通过运行以下命令来完成此操作:pip install -U transformers==4.30.0

概述

RetriBERT 模型在博客文章 Explain Anything Like I’m Five: A Model for Open Domain Long Form Question Answering 中被提出。RetriBERT 是一个小型模型,它使用单个或一对 BERT 编码器以及较低维度的投影,用于文本的密集语义索引。

此模型由 yjernite 贡献。用于训练和使用模型的代码可以在此处找到。

RetriBertConfig

class transformers.RetriBertConfig

< >

( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 8 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 share_encoders = True projection_dim = 128 pad_token_id = 0 **kwargs )

参数

  • vocab_size (int, 可选, 默认为 30522) — RetriBERT 模型的词汇表大小。定义了在调用 RetriBertModel 时传递的 inputs_ids 可以表示的不同 token 的数量。
  • hidden_size (int, 可选, 默认为 768) — 编码器层和池化器层的维度。
  • num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中的隐藏层数。
  • num_attention_heads (int, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。
  • intermediate_size (int, 可选, 默认为 3072) — Transformer 编码器中“中间”(通常称为前馈)层的维度。
  • hidden_act (strfunction, 可选, 默认为 "gelu") — 编码器和池化器中的非线性激活函数(函数或字符串)。如果为字符串,则支持 "gelu""relu""silu""gelu_new"
  • hidden_dropout_prob (float, 可选, 默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。
  • attention_probs_dropout_prob (float, 可选, 默认为 0.1) — 注意力概率的 dropout 比率。
  • max_position_embeddings (int, 可选, 默认为 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一(例如,512 或 1024 或 2048)。
  • type_vocab_size (int, 可选, 默认为 2) — 传递到 BertModel 中的 token_type_ids 的词汇表大小。
  • initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
  • layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon 值。
  • share_encoders (bool, 可选, 默认为 True) — 是否对查询和文档使用相同的 Bert 类型编码器
  • projection_dim (int, 可选, 默认为 128) — 投影后查询和文档表示的最终维度

这是用于存储 RetriBertModel 配置的配置类。它用于根据指定的参数实例化 RetriBertModel 模型,定义模型架构。使用默认值实例化配置将产生与 RetriBERT yjernite/retribert-base-uncased 架构类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 中的文档。

RetriBertTokenizer

class transformers.RetriBertTokenizer

< >

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

  • vocab_file (str) — 包含词汇表的文件。
  • do_lower_case (bool, 可选, 默认为 True) — 是否在 token 化时将输入转换为小写。
  • do_basic_tokenize (bool, 可选, 默认为 True) — 是否在 WordPiece 之前进行基本 token 化。
  • never_split (Iterable, 可选) — 在 token 化期间永远不会拆分的 token 集合。仅当 do_basic_tokenize=True 时有效。
  • unk_token (str, 可选, 默认为 "[UNK]") — 未知 token。词汇表中不存在的 token 无法转换为 ID,而是设置为此 token。
  • sep_token (str, 可选, 默认为 "[SEP]") — 分隔符 token,用于从多个序列构建序列时使用,例如,用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊 token 构建的序列的最后一个 token。
  • pad_token (str, 可选, 默认为 "[PAD]") — 用于填充的 token,例如在批处理不同长度的序列时。
  • cls_token (str, 可选, 默认为 "[CLS]") — 分类器 token,用于进行序列分类(对整个序列而不是每个 token 进行分类)。当使用特殊 token 构建时,它是序列的第一个 token。
  • mask_token (str, optional, defaults to "[MASK]") — 用于遮蔽值的标记。 这是使用掩码语言建模训练此模型时使用的标记。 这是模型将尝试预测的标记。
  • tokenize_chinese_chars (bool, optional, defaults to True) — 是否对中文字符进行分词。 对于日语,这可能应该被停用(参见此问题)。
  • strip_accents (bool, optional) — 是否去除所有重音符号。 如果未指定此选项,则将由 lowercase 的值确定(与原始 BERT 中一样)。

构建 RetriBERT 分词器。

RetriBertTokenizerBertTokenizer 相同,并运行端到端分词:标点符号分割和 wordpiece。

此分词器继承自 PreTrainedTokenizer,其中包含大多数主要方法。 用户应参考:此超类以获取有关这些方法的更多信息。

build_inputs_with_special_tokens

< >

( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) List[int]

参数

  • token_ids_0 (List[int]) — 将向其添加特殊标记的 ID 列表。
  • token_ids_1 (List[int], optional) — 序列对的可选的第二个 ID 列表。

返回

List[int]

带有适当特殊标记的 输入 ID 列表。

通过连接和添加特殊标记,从序列或序列对构建模型输入,以用于序列分类任务。 BERT 序列具有以下格式

  • 单个序列:[CLS] X [SEP]
  • 序列对:[CLS] A [SEP] B [SEP]

convert_tokens_to_string

< >

( tokens )

将标记(字符串)序列转换为单个字符串。

create_token_type_ids_from_sequences

< >

( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) List[int]

参数

  • token_ids_0 (List[int]) — ID 列表。
  • token_ids_1 (List[int], optional) — 序列对的可选的第二个 ID 列表。

返回

List[int]

根据给定的序列,返回 token type IDs 列表。

从传递的两个序列创建掩码,用于序列对分类任务。 BERT 序列

对掩码具有以下格式

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence    | second sequence |

如果 token_ids_1None,则此方法仅返回掩码的第一部分(0)。

get_special_tokens_mask

< >

( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None already_has_special_tokens: bool = False ) List[int]

参数

  • token_ids_0 (List[int]) — ID 列表。
  • token_ids_1 (List[int], optional) — 序列对的可选的第二个 ID 列表。
  • already_has_special_tokens (bool, optional, defaults to False) — 令牌列表是否已使用模型的特殊令牌格式化。

返回

List[int]

范围 [0, 1] 中的整数列表:1 表示特殊标记,0 表示序列标记。

从没有添加特殊标记的令牌列表中检索序列 ID。 当使用分词器的 prepare_for_model 方法添加特殊标记时,将调用此方法。

RetriBertTokenizerFast

class transformers.RetriBertTokenizerFast

< >

( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

  • vocab_file (str) — 包含词汇表的文件。
  • do_lower_case (bool, optional, defaults to True) — 分词时是否将输入转换为小写。
  • unk_token (str, optional, defaults to "[UNK]") — 未知标记。 词汇表中不存在的标记无法转换为 ID,而是设置为此标记。
  • sep_token (str, optional, defaults to "[SEP]") — 分隔符标记,用于从多个序列构建序列时,例如用于序列分类的两个序列或用于问答的文本和问题。 它也用作使用特殊标记构建的序列的最后一个标记。
  • pad_token (str, optional, defaults to "[PAD]") — 用于填充的标记,例如在批处理不同长度的序列时。
  • cls_token (str, optional, defaults to "[CLS]") — 分类器标记,用于进行序列分类(对整个序列而不是每个标记进行分类)。 当使用特殊标记构建时,它是序列的第一个标记。
  • mask_token (str, optional, defaults to "[MASK]") — 用于遮蔽值的标记。 这是使用掩码语言建模训练此模型时使用的标记。 这是模型将尝试预测的标记。
  • clean_text (bool, optional, defaults to True) — 是否在分词之前清理文本,方法是删除任何控制字符并将所有空格替换为经典空格。
  • tokenize_chinese_chars (bool, optional, defaults to True) — 是否对中文进行分词。 对于日文,可能应该停用此功能(参见此问题)。
  • strip_accents (bool, optional) — 是否去除所有重音符号。 如果未指定此选项,则将由 lowercase 的值确定(与原始 BERT 中一样)。
  • wordpieces_prefix (str, optional, defaults to "##") — 子词的前缀。

构建一个“快速” RetriBERT 分词器(由 HuggingFace 的 tokenizers 库支持)。

RetriBertTokenizerFastBertTokenizerFast 完全相同,并运行端到端分词:标点符号分割和 wordpiece。

此分词器继承自 PreTrainedTokenizerFast,其中包含大多数主要方法。 用户应参考此超类以获取有关这些方法的更多信息。

build_inputs_with_special_tokens

< >

( token_ids_0 token_ids_1 = None ) List[int]

参数

  • token_ids_0 (List[int]) — 将添加特殊标记的 ID 列表。
  • token_ids_1 (List[int], optional) — 序列对的可选的第二个 ID 列表。

返回

List[int]

带有适当特殊标记的 输入 ID 列表。

通过连接和添加特殊标记,从序列或序列对构建模型输入,以用于序列分类任务。 BERT 序列具有以下格式

  • 单个序列:[CLS] X [SEP]
  • 序列对:[CLS] A [SEP] B [SEP]

create_token_type_ids_from_sequences

< >

( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) List[int]

参数

  • token_ids_0 (List[int]) — ID 列表。
  • token_ids_1 (List[int], optional) — 序列对的可选的第二个 ID 列表。

返回

List[int]

根据给定的序列,返回 token type IDs 列表。

从传递的两个序列创建掩码,用于序列对分类任务。 BERT 序列

对掩码具有以下格式

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence    | second sequence |

如果 token_ids_1None,则此方法仅返回掩码的第一部分(0)。

RetriBertModel

class transformers.RetriBertModel

< >

( config: RetriBertConfig )

参数

  • config (RetriBertConfig) — 带有模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型关联的权重,仅加载配置。 查看 from_pretrained() 方法以加载模型权重。

基于 Bert 的模型,用于嵌入查询或文档以进行文档检索。

此模型继承自 PreTrainedModel。 查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头等)。

此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与常规用法和行为相关的所有事项。

forward

< >

( input_ids_query: LongTensor attention_mask_query: typing.Optional[torch.FloatTensor] input_ids_doc: LongTensor attention_mask_doc: typing.Optional[torch.FloatTensor] checkpoint_batch_size: int = -1 ) `torch.FloatTensor“

参数

  • input_ids_query (torch.LongTensor,形状为 (batch_size, sequence_length)) — 批次中查询的词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • attention_mask_query (torch.FloatTensor,形状为 (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。 在 [0, 1] 中选择的掩码值:

    • 1 表示未掩盖的标记,
    • 0 表示已掩盖的标记。

    什么是注意力掩码?

  • input_ids_doc (torch.LongTensor,形状为 (batch_size, sequence_length)) — 批次中文档的词汇表中输入序列标记的索引。
  • attention_mask_doc (torch.FloatTensor,形状为 (batch_size, sequence_length), optional) — 用于避免对文档填充标记索引执行注意力的掩码。
  • checkpoint_batch_size (int, optional, defaults to -1) — 如果大于 0,则使用梯度检查点,以便仅在 GPU 上一次计算 checkpoint_batch_size 个示例的序列表示。 所有查询表示仍然与批次中的所有文档表示进行比较。

返回

`torch.FloatTensor“

在尝试将批次中的每个查询与其对应的文档以及每个文档与其对应的查询匹配时,获得的双向交叉熵损失

< > 在 GitHub 上更新