Transformers 文档

布鲁姆

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作开发模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始

布鲁姆

概述

BLOOM 模型及其各种版本已通过 BigScience Workshop 提出。BigScience 的灵感来自于其他开放科学倡议，在这些倡议中，研究人员汇集了他们的时间和资源，以集体实现更高的影响力。BLOOM 的架构本质上与 GPT3 相似（用于下一个 token 预测的自回归模型），但已在 46 种不同的语言和 13 种编程语言上进行了训练。模型的几个较小版本已在同一数据集上进行了训练。BLOOM 有以下版本：

资源

以下是官方 Hugging Face 和社区（🌎 表示）资源的列表，可帮助您开始使用 BLOOM。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！该资源最好能展示一些新的东西，而不是重复现有资源。

文本生成

BloomForCausalLM 此因果语言建模示例脚本和 notebook 支持。

另请参阅

⚡️ 推理

关于 Bloom 推理优化故事的博客。
关于使用 DeepSpeed 和 Accelerate 实现惊人的快速 BLOOM 推理的博客。

⚙️ 训练

关于 BLOOM 训练背后的技术的博客。

BloomConfig

class transformers.BloomConfig

( vocab_size = 250880 hidden_size = 64 n_layer = 2 n_head = 8 layer_norm_epsilon = 1e-05 initializer_range = 0.02 use_cache = True bos_token_id = 1 eos_token_id = 2 apply_residual_connection_post_layernorm = False hidden_dropout = 0.0 attention_dropout = 0.0 pretraining_tp = 1 slow_but_exact = False **kwargs )

Parameters

vocab_size (int，可选，默认为 250880) — Bloom 模型的词汇表大小。定义了调用 BloomModel 时传递的 inputs_ids 可以表示的最大不同标记数。查看关于 vocab_size 是如何定义的此讨论。
hidden_size (int，可选，默认为 64) — 嵌入和隐藏状态的维度。
n_layer (int，可选，默认为 2) — Transformer 编码器中隐藏层的数量。
n_head (int，可选，默认为 8) — Transformer 编码器中每个注意力层的注意力头的数量。
layer_norm_epsilon (float，可选，默认为 1e-5) — 层归一化层中使用的 epsilon 值。
initializer_range (float，可选，默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
apply_residual_connection_post_layernorm (bool，可选，默认为 False) — 如果启用，则使用隐藏状态的层归一化作为 transformer 模块中的残差连接
hidden_dropout (float，可选，默认为 0.1) — 偏差 dropout 函数的 dropout 率。
attention_dropout (float，可选，默认为 0.1) — 应用于注意力概率的 Dropout 率
use_cache (bool，可选，默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。
pretraining_tp (int，可选，默认为 1) — 实验性功能。预训练期间与 Megatron 一起使用的张量并行等级。请参考本文档以了解更多信息。此值对于确保预训练结果的完全可重现性是必要的。请参考此问题。另请注意，这仅在 slow_but_exact=True 时启用。
slow_but_exact (bool，可选，默认为 False) — 实验性功能。是否使用注意力机制的慢速但精确的实现。在合并 TP 等级张量时，由于切片操作，在 Megatron 上训练的模型和我们的模型之间结果可能略有不同。请参考此问题。获得更准确结果的解决方案是启用此功能。启用此功能将损害推理的计算时间。一旦使用 TP_rank=1 对主模型进行微调，将来可能会解决此问题。

这是用于存储 BloomModel 配置的配置类。它用于根据指定的参数实例化 Bloom 模型，定义模型架构。使用默认值实例化配置将产生与 Bloom 架构 bigscience/bloom 类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import BloomConfig, BloomModel

>>> # Initializing a Bloom configuration
>>> configuration = BloomConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = BloomModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

BloomTokenizerFast

class transformers.BloomTokenizerFast

( vocab_file = None merges_file = None tokenizer_file = None unk_token = '<unk>' bos_token = '<s>' eos_token = '</s>' pad_token = '<pad>' add_prefix_space = False clean_up_tokenization_spaces = False **kwargs )

Parameters

vocab_file (str) — 词汇表文件的路径。
merges_file (str) — merges 文件的路径。
errors (str，可选，默认为 "replace") — 将字节解码为 UTF-8 时要遵循的范例。有关更多信息，请参阅 bytes.decode。
unk_token (str，可选，默认为 <|endoftext|>) — 未知标记。词汇表中没有的标记无法转换为 ID，而是设置为此标记。
bos_token (str，可选，默认为 <|endoftext|>) — 序列开始标记。
eos_token (str，可选，默认为 <|endoftext|>) — 序列结束标记。
add_prefix_space (bool，可选，默认为 False) — 是否在输入中添加前缀空格。这允许像处理任何其他单词一样处理前导单词。（Bloom 分词器通过前面的空格检测单词的开头）。
trim_offsets (bool，可选，默认为 True) — 后处理步骤是否应修剪偏移量以避免包含空格。

构建一个“快速”Bloom 分词器（由 HuggingFace 的 tokenizers 库支持）。基于字节级字节对编码。

此分词器经过训练，将空格视为标记的一部分（有点像 sentencepiece），因此一个单词将

在句子开头（没有空格）还是不在句子开头，编码方式会有所不同

>>> from transformers import BloomTokenizerFast

>>> tokenizer = BloomTokenizerFast.from_pretrained("bigscience/bloom")
>>> tokenizer("Hello world")["input_ids"]
[59414, 8876]

>>> tokenizer(" Hello world")["input_ids"]
[86153, 8876]

您可以通过在实例化此分词器时传递 add_prefix_space=True 来绕过此行为，但由于模型不是以这种方式预训练的，因此可能会导致性能下降。

当与 is_split_into_words=True 一起使用时，此分词器需要使用 add_prefix_space=True 实例化。

此分词器继承自 PreTrainedTokenizerFast，其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。

Pytorch

隐藏 Pytorch 内容

BloomModel

class transformers.BloomModel

( config: BloomConfig )

Parameters

config (BloomConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

裸 Bloom 模型输出原始隐藏状态，顶部没有任何特定的 head。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小等）。

此模型也是 PyTorch torch.nn.Module 子类。可将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与通用用法和行为相关的所有事项。

forward

( input_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.Tuple[typing.Tuple[torch.Tensor, torch.Tensor], ...], NoneType] = None attention_mask: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **deprecated_arguments ) → transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

Parameters

input_ids (形状为 (batch_size, input_ids_length) 的 torch.LongTensor) — 如果 past_key_values 为 None，则 input_ids_length = sequence_length，否则为 past_key_values[0][0].shape[2] （输入过去键值状态的 sequence_length）。词汇表中输入序列 tokens 的索引。

如果使用 past_key_values，则仅应将未计算过去的 input_ids 作为 input_ids 传递。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor))，可选) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的键和值），可用于加速顺序解码。这通常包括模型在解码的先前阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv cache 指南；
- 长度为 config.n_layers 的 tuple(tuple(torch.FloatTensor)) 元组，其中每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，则用户可以选择仅输入最后一个形状为 (batch_size, 1) 的 input_ids （那些没有将其过去的键值状态提供给此模型的 input_ids），而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
attention_mask (形状为 (batch_size, sequence_length) 的 torch.FloatTensor，可选) — 用于避免对 padding token 索引执行注意力的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示 未掩码 的 tokens，
- 0 表示 已掩码 的 tokens。
什么是注意力掩码？
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor，可选) — 用于使自注意力模块的选定 head 无效的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示 head 未被掩码，
- 0 表示 head 被掩码。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您想要比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。

如果使用 past_key_values，则可以选择仅输入最后一个 inputs_embeds （请参阅 past_key_values）。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (形状为 (sequence_length) 的 torch.LongTensor，可选) — 描述输入序列 tokens 在序列中位置的索引。与 position_ids 相反，此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整的序列长度。

返回值

transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），其中包含各种元素，具体取决于配置 (BloomConfig) 和输入。

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。

如果使用 past_key_values，则仅输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(tuple(torch.FloatTensor)) 元组，其中每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量），并且可选地，如果 config.is_encoder_decoder=True，则还有 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

包含预先计算的隐藏状态（自注意力模块中的键和值，以及可选地，如果 config.is_encoder_decoder=True，则在交叉注意力模块中），可以用于（请参阅 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力 head 中的加权平均值。
cross_attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 且 config.add_cross_attention=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力 head 中的加权平均值。

BloomModel forward 方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但之后应调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, BloomModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-560m")
>>> model = BloomModel.from_pretrained("bigscience/bloom-560m")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

BloomForCausalLM

class transformers.BloomForCausalLM

( config: BloomConfig )

Parameters

config (BloomConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，而只会加载配置。请查看 from_pretrained() 方法以加载模型权重。

带有语言建模 head 的 Bloom 模型 Transformer（带有权重与输入嵌入绑定的线性层）。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小等）。

此模型也是 PyTorch torch.nn.Module 子类。可将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与通用用法和行为相关的所有事项。

forward

( input_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.Tuple[typing.Tuple[torch.Tensor, torch.Tensor], ...], NoneType] = None attention_mask: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **deprecated_arguments ) → transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)

Parameters

input_ids (形状为 (batch_size, input_ids_length) 的 torch.LongTensor) — 如果 past_key_values 为 None，则 input_ids_length = sequence_length，否则为 past_key_values[0][0].shape[2] （输入过去键值状态的 sequence_length）。词汇表中输入序列 tokens 的索引。

如果使用 past_key_values，则仅应将未计算过去的 input_ids 作为 input_ids 传递。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor)), 可选) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的键和值），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入最后一次的 input_ids （那些没有将其过去的键值状态提供给此模型的）形状为 (batch_size, 1) 而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
attention_mask (形状为 (batch_size, sequence_length) 的 torch.FloatTensor, 可选) — 用于避免在填充 token 索引上执行注意力的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示 未被掩盖 的 token，
- 0 表示 被掩盖 的 token。
什么是注意力掩码？
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor, 可选) — 用于 nullify 自注意力模块的选定头的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示头 未被掩盖，
- 0 表示头 被掩盖。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您想要比模型的内部嵌入查找矩阵更好地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。

如果使用 past_key_values，则可以选择仅输入最后一次的 inputs_embeds （请参阅 past_key_values）。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
cache_position (形状为 (sequence_length) 的 torch.LongTensor, 可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 相反，此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整的序列长度。
labels (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 用于语言建模的标签。请注意，标签在模型内部 被移动，即您可以设置 labels = input_ids 索引在 [-100, 0, ..., config.vocab_size] 中选择所有设置为 -100 的标签都将被忽略（掩盖），损失仅针对 [0, ..., config.vocab_size] 中的标签计算

返回值

transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 torch.FloatTensor 元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），包括各种元素，具体取决于配置 (BloomConfig) 和输入。

loss (形状为 (1,) 的 torch.FloatTensor, 可选, 当提供 labels 时返回) — 语言建模损失（用于下一个 token 预测）。
logits (形状为 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 语言建模头的预测分数（SoftMax 之前每个词汇 token 的分数）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力 head 中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力 softmax 之后的交叉注意力权重，用于计算交叉注意力头中的加权平均值。
past_key_values (tuple(tuple(torch.FloatTensor)), 可选, 当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 torch.FloatTensor 元组的元组，每个元组都包含自注意力的缓存键、值状态，以及模型在编码器-解码器设置中使用时的交叉注意力层。仅在 config.is_decoder = True 时相关。

包含预先计算的隐藏状态（注意力模块中的键和值），可以用于（请参阅 past_key_values 输入）加速顺序解码。

BloomForCausalLM forward 方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但之后应调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例

>>> import torch
>>> from transformers import AutoTokenizer, BloomForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-560m")
>>> model = BloomForCausalLM.from_pretrained("bigscience/bloom-560m")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

BloomForSequenceClassification

class transformers.BloomForSequenceClassification

( config: BloomConfig )

Parameters

config (BloomConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

带有序列分类头的 Bloom 模型转换器（线性层）。

BloomForSequenceClassification 使用最后一个 token 来进行分类，就像其他因果模型（例如 GPT-1）一样。

由于它对最后一个 token 进行分类，因此需要知道最后一个 token 的位置。如果在配置中定义了 pad_token_id，它会在每行中找到最后一个不是填充 token 的 token。如果未定义 pad_token_id，它将简单地获取批次中每行的最后一个值。由于当传递 inputs_embeds 而不是 input_ids 时，它无法猜测填充 token，因此它执行相同的操作（获取批次中每行的最后一个值）。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小等）。

此模型也是 PyTorch torch.nn.Module 子类。可将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与通用用法和行为相关的所有事项。

forward

( input_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.Tuple[typing.Tuple[torch.Tensor, torch.Tensor], ...], NoneType] = None attention_mask: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **deprecated_arguments ) → transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

Parameters

input_ids (形状为 (batch_size, input_ids_length) 的 torch.LongTensor) — 如果 past_key_values 为 None，则 input_ids_length = sequence_length，否则为 past_key_values[0][0].shape[2] （输入过去键值状态的 sequence_length）。词汇表中输入序列 token 的索引。

如果使用 past_key_values，则仅应将未计算其过去的 input_ids 作为 input_ids 传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor)), 可选) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的键和值），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入最后一次的 input_ids （那些没有将其过去的键值状态提供给此模型的）形状为 (batch_size, 1) 而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
attention_mask (形状为 (batch_size, sequence_length) 的 torch.FloatTensor, 可选) — 用于避免在填充 token 索引上执行注意力的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示 未被掩盖 的 token，
- 0 表示 被掩盖 的 token。
什么是注意力掩码？
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor, 可选) — 用于 nullify 自注意力模块的选定头的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示头 未被掩盖，
- 0 表示头 被掩盖。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — (可选) 您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精确地控制如何将 input_ids 索引转换为关联向量，这将非常有用。

如果使用了 past_key_values，则可以选择仅输入最后的 inputs_embeds（请参阅 past_key_values）。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 索引，描述输入序列标记在序列中的位置。与 position_ids 相反，此张量不受填充的影响。它用于在正确的位置更新缓存，并推断完整的序列长度。
labels (torch.LongTensor，形状为 (batch_size,)，可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1，则计算回归损失（均方误差损失）；如果 config.num_labels > 1，则计算分类损失（交叉熵损失）。

返回值

transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.SequenceClassifierOutputWithPast 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），其中包含各种元素，具体取决于配置 (BloomConfig) 和输入。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 分类（或回归，如果 config.num_labels==1）损失。
logits (torch.FloatTensor，形状为 (batch_size, config.num_labels)) — 分类（或回归，如果 config.num_labels==1）得分（在 SoftMax 之前）。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — tuple(torch.FloatTensor) 的元组，长度为 config.n_layers，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量)

包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码（请参阅 past_key_values 输入）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力 head 中的加权平均值。

BloomForSequenceClassification 前向方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但之后应调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

单标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, BloomForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-560m")
>>> model = BloomForSequenceClassification.from_pretrained("bigscience/bloom-560m")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = BloomForSequenceClassification.from_pretrained("bigscience/bloom-560m", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, BloomForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-560m")
>>> model = BloomForSequenceClassification.from_pretrained("bigscience/bloom-560m", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = BloomForSequenceClassification.from_pretrained(
...     "bigscience/bloom-560m", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

BloomForTokenClassification

class transformers.BloomForTokenClassification

( config: BloomConfig )

Parameters

config (BloomConfig) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

Bloom 模型，顶部带有标记分类头（隐藏状态输出顶部的线性层），例如用于命名实体识别 (NER) 任务。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小等）。

此模型也是 PyTorch torch.nn.Module 子类。可将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与通用用法和行为相关的所有事项。

forward

( input_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.Tuple[typing.Tuple[torch.Tensor, torch.Tensor], ...], NoneType] = None attention_mask: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **deprecated_arguments ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

Parameters

input_ids (torch.LongTensor，形状为 (batch_size, input_ids_length)) — input_ids_length = sequence_length 如果 past_key_values 为 None，否则为 past_key_values[0][0].shape[2] (输入过去键值状态的 sequence_length)。词汇表中输入序列标记的索引。

如果使用 past_key_values，则仅应将未计算过去值的 input_ids 作为 input_ids 传递。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor))，可选) — 预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码。这通常包括模型在解码的先前阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- tuple(torch.FloatTensor) 的元组，长度为 config.n_layers，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，则用户可以选择仅输入最后的 input_ids（那些未将其过去键值状态提供给此模型的 input_ids），形状为 (batch_size, 1)，而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 掩码，以避免对填充标记索引执行注意力机制。掩码值在 [0, 1] 中选择：
- 1 表示标记未被掩盖，
- 0 表示标记被掩盖。
什么是注意力掩码？
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头未被掩盖，
- 0 表示头被掩盖。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — (可选) 您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精确地控制如何将 input_ids 索引转换为关联向量，这将非常有用。

如果使用了 past_key_values，则可以选择仅输入最后的 inputs_embeds（请参阅 past_key_values）。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 索引，描述输入序列 tokens 在序列中的位置。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新 cache 并推断完整的序列长度。
labels (torch.LongTensor，形状为 (batch_size,)，可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1，则计算回归损失（均方误差损失）。如果 config.num_labels > 1，则计算分类损失（交叉熵损失）。

返回值

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个 torch.FloatTensor 元组 (如果传递了 return_dict=False 或者当 config.return_dict=False 时)，包含各种元素，具体取决于配置 (BloomConfig) 和输入。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 分类损失。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.num_labels)) — 分类得分（在 SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力 head 中的加权平均值。

BloomForTokenClassification 的 forward 方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但之后应调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, BloomForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-560m")
>>> model = BloomForTokenClassification.from_pretrained("bigscience/bloom-560m")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss

BloomForQuestionAnswering

class transformers.BloomForQuestionAnswering

( config )

Parameters

config (BloomConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

BLOOM 模型转换器，顶部带有一个跨度分类头，用于抽取式问答任务，如 SQuAD（隐藏状态输出顶部的线性层，用于计算 span start logits 和 span end logits）。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小等）。

此模型也是 PyTorch torch.nn.Module 子类。可将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与通用用法和行为相关的所有事项。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None start_positions: typing.Optional[torch.LongTensor] = None end_positions: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None )

Parameters

input_ids (torch.LongTensor，形状为 (batch_size, input_ids_length)) — input_ids_length = sequence_length 如果 past_key_values 为 None，否则为 past_key_values[0][0].shape[2] (输入 past key value states 的 sequence_length)。词汇表中输入序列 tokens 的索引。

如果使用 past_key_values，则只有未计算其 past 的 input_ids 应作为 input_ids 传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是 input IDs？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor))，可选) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的 key 和 values），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv cache 指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为旧版缓存格式。
模型将输出与作为输入提供的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，则用户可以选择仅输入最后一次的 input_ids（那些没有将其 past key value states 提供给此模型的）形状为 (batch_size, 1)，而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — Mask，用于避免对 padding token 索引执行注意力机制。Mask 值在 [0, 1] 中选择：
- 1 表示 tokens 未被 mask，
- 0 表示 tokens 被 mask。
什么是注意力掩码？
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — Mask，用于使自注意力模块的选定 heads 无效。Mask 值在 [0, 1] 中选择：
- 1 表示 head 未被 mask，
- 0 表示 head 被 mask。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您想要比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。

如果使用 past_key_values，则可以选择仅输入最后一次的 inputs_embeds（请参阅 past_key_values）。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values key value states，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的 attentions 张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的 hidden states。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是纯元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 索引，描述输入序列 tokens 在序列中的位置。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新 cache 并推断完整的序列长度。
start_positions (torch.LongTensor，形状为 (batch_size,)，可选) — 用于计算 token 分类损失的标签，表示标注跨度的开始位置（索引）。位置被限制在序列的长度 (sequence_length) 内。序列之外的位置不计入损失计算。
end_positions (torch.LongTensor，形状为 (batch_size,)，可选) — 用于计算 token 分类损失的标签，表示标注跨度的结束位置（索引）。位置被限制在序列的长度 (sequence_length) 内。序列之外的位置不计入损失计算。

BloomForQuestionAnswering 的 forward 方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但之后应调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

JAX

隐藏 JAX 内容

FlaxBloomModel

class transformers.FlaxBloomModel

( config: BloomConfig input_shape: typing.Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

Parameters

config (BloomConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。
dtype (jax.numpy.dtype, 可选, 默认为 jax.numpy.float32) — 计算的数据类型。可以是 jax.numpy.float32, jax.numpy.float16 (在 GPU 上) 和 jax.numpy.bfloat16 (在 TPU 上) 之一。

这可以用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定，所有计算都将使用给定的 dtype 执行。

请注意，这仅指定计算的 dtype，并不影响模型参数的 dtype。

如果您希望更改模型参数的 dtype，请参阅 to_fp16() 和 to_bf16()。

裸 Bloom 模型输出原始隐藏状态，顶部没有任何特定的 head。

此模型继承自 FlaxPreTrainedModel。查看超类文档以获取库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝头等）。

此模型也是 Flax Linen flax.nn.Module 子类。将其用作常规 Flax 模块，并参阅 Flax 文档以了解与常规用法和行为相关的所有事项。

最后，此模型支持固有的 JAX 功能，例如

call

( input_ids attention_mask = None past_key_values: dict = None params: dict = None dropout_rng: <function PRNGKey at 0x7f787eb14310> = None train: bool = False output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

Parameters

input_ids (numpy.ndarray，形状为 (batch_size, input_ids_length)) — input_ids_length = sequence_length。词汇表中输入序列标记的索引。

可以使用 BloomTokenizer 获取索引。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (numpy.ndarray，形状为 (batch_size, sequence_length), 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在 [0, 1] 中选择：
- 1 表示未被掩码的标记，
- 0 表示被掩码的标记。
什么是 attention 掩码？
past_key_values (Dict[str, np.ndarray], 可选, 由 init_cache 返回或在传递先前的 past_key_values 时返回) — 预先计算的隐藏状态（attention 块中的键和值）字典，可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 *[batch_size, max_length]*。
output_attentions (bool, 可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。

返回值

transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包括各种元素，具体取决于配置 (BloomConfig) 和输入。

last_hidden_state (jnp.ndarray，形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出端的隐藏状态序列。
hidden_states (tuple(jnp.ndarray), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 元组（embeddings 输出的输出一个，每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出端以及初始 embedding 输出端的隐藏状态。
attentions (tuple(jnp.ndarray), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力 head 中的加权平均值。

FlaxBloomPreTrainedModel 前向方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但之后应调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, FlaxBloomModel

>>> tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom")
>>> model = FlaxBloomModel.from_pretrained("bigscience/bloom")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="jax")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

FlaxBloomForCausalLM

class transformers.FlaxBloomForCausalLM

( config: BloomConfig input_shape: typing.Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

Parameters

config (BloomConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。
dtype (jax.numpy.dtype, 可选, 默认为 jax.numpy.float32) — 计算的数据类型。可以是 jax.numpy.float32, jax.numpy.float16 (在 GPU 上) 和 jax.numpy.bfloat16 (在 TPU 上) 之一。

这可以用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定，所有计算都将使用给定的 dtype 执行。

请注意，这仅指定计算的 dtype，并不影响模型参数的 dtype。

如果您希望更改模型参数的 dtype，请参阅 to_fp16() 和 to_bf16()。

带有语言建模 head 的 Bloom 模型 Transformer（带有权重与输入嵌入绑定的线性层）。

此模型继承自 FlaxPreTrainedModel。查看超类文档以获取库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝头等）。

此模型也是 Flax Linen flax.nn.Module 子类。将其用作常规 Flax 模块，并参阅 Flax 文档以了解与常规用法和行为相关的所有事项。

最后，此模型支持固有的 JAX 功能，例如

call

( input_ids attention_mask = None past_key_values: dict = None params: dict = None dropout_rng: <function PRNGKey at 0x7f787eb14310> = None train: bool = False output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或 tuple(torch.FloatTensor)

Parameters

input_ids (numpy.ndarray，形状为 (batch_size, input_ids_length)) — input_ids_length = sequence_length。词汇表中输入序列标记的索引。

可以使用 BloomTokenizer 获取索引。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (numpy.ndarray，形状为 (batch_size, sequence_length), 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在 [0, 1] 中选择：
- 1 表示未被掩码的标记，
- 0 表示被掩码的标记。
什么是 attention 掩码？
past_key_values (Dict[str, np.ndarray], 可选, 由 init_cache 返回或在传递先前的 past_key_values 时返回) — 预先计算的隐藏状态（attention 块中的键和值）字典，可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 *[batch_size, max_length]*。
output_attentions (bool, 可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。

返回值

transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或 tuple(torch.FloatTensor)

transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包括各种元素，具体取决于配置 (BloomConfig) 和输入。

logits (jnp.ndarray，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前的每个词汇表标记的分数）。
hidden_states (tuple(jnp.ndarray), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 元组（embeddings 输出的输出一个，每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出端以及初始 embedding 输出端的隐藏状态。
attentions (tuple(jnp.ndarray), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力 head 中的加权平均值。

FlaxBloomPreTrainedModel 前向方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但之后应调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, FlaxBloomForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom")
>>> model = FlaxBloomForCausalLM.from_pretrained("bigscience/bloom")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="np")
>>> outputs = model(**inputs)

>>> # retrieve logts for next token
>>> next_token_logits = outputs.logits[:, -1]

< > 在 GitHub 上更新

←Blenderbot Small BORT→