Transformers 文档

Zamba2

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Zamba2

PyTorch FlashAttention SDPA

Zamba2 是由 Zyphra 训练的大型语言模型 (LLM),并以 Apache 2.0 许可证提供。请参阅 Zyphra Hugging Face 仓库获取模型权重。

此模型由 pglo 贡献。

模型详情

Zamba2-1.2B、Zamba2-2.7B 和 Zamba2-7B 是结合了状态空间模型(特别是 Mamba)和 Transformer 的混合模型,并使用下一个标记预测进行训练。Zamba2 在每 6 个 mamba 块后使用共享的 Transformer 层。它使用 Mistral v0.1 分词器。我们在一系列小规模的消融实验后确定了这种架构。Zamba2-1.2B、Zamba2-2.7B 和 Zamba2-7B 分别在 2T 和 3T 标记上进行了预训练。

快速入门

先决条件

Zamba2 需要您使用 transformers 4.48.0 或更高版本

pip install transformers>=4.48.0

推理

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-7B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-7B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "What factors contributed to the fall of the Roman Empire?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

模型卡

模型卡可以在以下位置找到:

问题

对于模型输出问题或社区讨论,请使用 Hugging Face 社区 论坛

许可证

模型权重通过 Apache 2.0 许可证开源。

Zamba2Config

class transformers.Zamba2Config

< >

( 词汇表大小 = 32000 最大位置嵌入 = 4096 隐藏层大小 = 2560 隐藏层数量 = 54 层块类型 = None mamba_d_state = 64 mamba_d_conv = 4 mamba_expand = 2 mamba_ngroups = 1 time_step_min = 0.001 time_step_max = 0.1 time_step_floor = 0.0001 time_step_limit = None n_mamba_heads = 8 use_conv_bias = True chunk_size = 256 use_mem_eff_path = False add_bias_linear = False 中间层大小 = None 隐藏层激活函数 = 'gelu' 注意力头数 = 32 键值对头数 = None 注意力Dropout = 0.0 内存块数量 = 1 使用共享注意力适配器 = False 适配器秩 = 128 使用内存RoPE = False rope_theta = 10000 初始化范围 = 0.02 rms_norm_eps = 1e-05 使用缓存 = True 保留logits数量 = 1 填充token_id = 0 bos_token_id = 1 eos_token_id = 2 使用长上下文 = False **kwargs )

参数

  • vocab_size (int, 可选, 默认值 32000) — Zamba2 模型的词汇表大小。定义了调用 Zamba2Modelinputs_ids 可以表示的不同标记的数量。
  • max_position_embeddings (int, 可选, 默认值 4096) — 此模型可能使用的最大序列长度。
  • hidden_size (int, 可选, 默认值 2560) — 隐藏表示的维度。
  • num_hidden_layers (int, 可选, 默认值 54) — 模型中隐藏层的数量。
  • layers_block_type (list, 可选) — 层类型列表,可以是“mamba”或“hybrid”。
  • mamba_d_state (int, 可选, 默认值 64) — 状态空间潜在变量的形状。
  • mamba_d_conv (int, 可选, 默认值 4) — 卷积核的大小。
  • mamba_expand (int, 可选, 默认值 2) — 用于确定中间层大小的扩展因子。
  • mamba_ngroups (int, 可选, 默认值 1) — mamba 2 演化矩阵的分组数量。
  • time_step_min (float, 可选, 默认值 0.001) — 用于限制 dt_proj.bias 的最小 time_step
  • time_step_max (float, 可选, 默认值 0.1) — 用于限制 dt_proj.bias 的最大 time_step
  • time_step_floor (float, 可选, 默认值 0.0001) — dt_proj.bias 层初始化的最小钳制值。
  • time_step_limit (tuple, 可选) — 时间步值的接受范围。
  • n_mamba_heads (int, 可选, 默认值 8) — mamba 2 演化矩阵的头数。
  • use_conv_bias (bool, 可选, 默认值 True) — 是否在混合器块的卷积层中使用偏置。
  • chunk_size (int, 可选, 默认值 256) — 组成序列的块大小。
  • use_mem_eff_path (bool, 可选, 默认值 False) — 是否在 mamba2 层中使用融合的 conv1d 和扫描。
  • add_bias_linear (bool, 可选, 默认值 False) — 指示是否在各个层中使用偏置的标志。
  • intermediate_size (int, 可选, 默认值 4 * hidden_size) — MLP 表示的维度。
  • hidden_act (str, 可选, 默认值 "gelu") — MLP 中的非线性激活函数(函数或字符串)。
  • num_attention_heads (int, 可选, 默认值 32) — Transformer 解码器中每个注意力层的注意力头数。
  • num_key_value_heads (int, 可选) — 用于实现分组查询注意力的键值对头数。如果 num_key_value_heads=None,模型将使用多头注意力 (MHA);如果 num_key_value_heads=1,模型将使用多查询注意力 (MQA),否则使用 GQA。将多头检查点转换为 GQA 检查点时,每个组的键和值头应通过对该组内的所有原始头进行均值池化来构建。有关更多详细信息,请查看 此论文
  • attention_dropout (float, 可选, 默认值 0.0) — 注意力概率的 Dropout 比率。
  • num_mem_blocks (int, 可选, 默认值 1) — 未共享 Transformer 块的数量。
  • use_shared_attention_adapter (bool, 可选, 默认值 False) — 如果为 True,未共享适配器(形式上与 LoRA 相同,但在基础模型中使用)将添加到共享注意力层中的 q、k、v 投影器。
  • adapter_rank (int, optional, defaults to 128) — 共享 MLP 和共享注意力层中的适配器秩。
  • use_mem_rope (bool, optional, defaults to False) — 如果为 True,则在共享注意力层中包含 RoPE。
  • rope_theta (float, optional, defaults to 10000.0) — RoPE 嵌入的基础周期。
  • initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
  • rms_norm_eps (float, optional, defaults to 1e-05) — rms 归一化层使用的 epsilon。
  • use_cache (bool, optional, defaults to True) — 模型是否应返回最后一个键/值注意力(并非所有模型都使用)。仅当 config.is_decoder=True 时相关。
  • num_logits_to_keep (intNone, optional, defaults to 1) — 生成过程中要计算的 prompt logits 数量。如果为 None,则计算所有 logits。如果为整数值,则仅计算最后 num_logits_to_keep 个 logits。默认为 1,因为生成时只需要最后一个 prompt token 的 logits。对于长序列,整个序列的 logits 可能会占用大量内存,因此将 num_logits_to_keep=1 可以显著减少内存占用。
  • pad_token_id (int, optional, defaults to 0) — 填充 token 的 ID。
  • bos_token_id (int, optional, defaults to 1) — “序列开始”token 的 ID。
  • eos_token_id (int, optional, defaults to 2) — “序列结束”token 的 ID。
  • use_long_context (bool, optional, defaults to False) — 通过修改 RoPE 激活 Zamba 的上下文扩展版本。

这是一个配置类,用于存储 Zamba2Model 的配置。它用于根据指定的参数实例化 Zamba2 模型,定义模型架构。使用默认值实例化配置将生成类似于 Zamba2 模型的配置。

Zyphra/Zamba2-2.7B

配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 的文档。

>>> from transformers import Zamba2Model, Zamba2Config
>>> # Initializing a Zamba2-2.7B style configuration
>>> configuration = Zamba2Config()
>>> # Initializing a model from the Zamba2-2.7B style configuration
>>> model = Zamba2Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

Zamba2Model

class transformers.Zamba2Model

< >

( config: Zamba2Config )

参数

  • config (Zamba2Config) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。

裸 Zamba2 模型,输出原始隐藏状态,顶部没有任何特定头部。

此模型继承自 PreTrainedModel。有关库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查看超类文档。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch Module 使用,并参考 PyTorch 文档中所有与一般用法和行为相关的内容。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.BaseModelOutputWithPast or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是 input ID?

  • attention_mask (torch.Tensor of shape (batch_size, sequence_length), optional) — 用于避免对填充 token 索引执行注意力操作的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示未被掩盖的 token,
    • 0 表示被掩盖的 token。

    什么是注意力掩码?

  • position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列 token 在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]

    什么是位置 ID?

  • past_key_values (~models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache, optional) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在解码上一阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv cache 指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为旧版缓存格式。

    模型将输出与输入相同的缓存格式。如果没有传入 past_key_values,则返回旧版缓存格式。

    如果使用 past_key_values,用户可以选择只输入最后一个 input_ids(那些没有将其过去的键值状态提供给此模型的 token),形状为 (batch_size, 1),而不是所有 input_ids,形状为 (batch_size, sequence_length)

  • inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传入嵌入表示,而不是传入 input_ids。如果您希望对 input_ids 索引如何转换为相关向量有更多控制,而不是使用模型的内部嵌入查找矩阵,这会很有用。
  • use_cache (bool, optional) — 如果设置为 True,则返回 past_key_values 键值状态,可用于加速解码(参见 past_key_values)。
  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是纯元组。
  • cache_position (torch.LongTensor of shape (sequence_length), optional) — 表示输入序列 token 在序列中位置的索引。与 position_ids 不同,此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。

返回

transformers.modeling_outputs.BaseModelOutputWithPasttuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPast 或一个 torch.FloatTensor 元组(如果传入 return_dict=False 或当 config.return_dict=False 时),包含根据配置 (Zamba2Config) 和输入的不同元素。

  • last_hidden_state (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。

    如果使用了 past_key_values,则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。

  • past_key_values (Cache, optional, 当传入 use_cache=True 或当 config.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息,请参阅我们的 kv cache 指南

    包含预先计算的隐藏状态(自注意力块中的键和值,以及如果 config.is_encoder_decoder=True 则可选地在交叉注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传入 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(如果模型有嵌入层,则其中一个用于嵌入输出,加上每个层的输出)。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), optional, 当传入 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

Zamba2Model 的 forward 方法,覆盖了 __call__ 特殊方法。

尽管前向传播的配方需要在该函数中定义,但此后应调用 Module 实例,而不是该函数,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。

Zamba2ForCausalLM

class transformers.Zamba2ForCausalLM

< >

( config: Zamba2Config )

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **loss_kwargs ) transformers.modeling_outputs.CausalLMOutputWithPast or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是 input ID?

  • attention_mask (torch.Tensor of shape (batch_size, sequence_length), optional) — 用于避免对填充 token 索引执行注意力操作的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示未被掩盖的 token,
    • 0 表示被掩盖的 token。

    什么是注意力掩码?

  • position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列 token 在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]

    什么是位置 ID?

  • past_key_values (~models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache, optional) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在解码上一阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv cache 指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为旧版缓存格式。

    模型将输出与输入相同的缓存格式。如果没有传入 past_key_values,则返回旧版缓存格式。

    如果使用 past_key_values,用户可以选择只输入最后一个 input_ids(那些没有将其过去的键值状态提供给此模型的 token),形状为 (batch_size, 1),而不是所有 input_ids,形状为 (batch_size, sequence_length)

  • inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传入嵌入表示,而不是传入 input_ids。如果您希望对 input_ids 索引如何转换为相关向量有更多控制,而不是使用模型的内部嵌入查找矩阵,这会很有用。
  • labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于计算掩码语言建模损失的标签。索引应为 [0, ..., config.vocab_size] 或 -100 (参见 input_ids 文档字符串)。索引设置为 -100 的 token 将被忽略(掩码),损失仅针对标签在 [0, ..., config.vocab_size] 中的 token 计算。
  • use_cache (bool, optional) — 如果设置为 True,则返回 past_key_values 键值状态,可用于加速解码(参见 past_key_values)。
  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是纯元组。
  • cache_position (torch.LongTensor of shape (sequence_length), optional) — 表示输入序列 token 在序列中位置的索引。与 position_ids 不同,此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。
  • logits_to_keep (Union[int, torch.Tensor], defaults to 0) — 如果是 int,则计算最后 logits_to_keep 个 token 的 logits。如果是 0,则计算所有 input_ids 的 logits(特殊情况)。生成时只需要最后一个 token 的 logits,并且只计算该 token 的 logits 可以节省内存,这对于长序列或大词汇量来说非常重要。如果是 torch.Tensor,则必须是 1D,对应于在序列长度维度中要保留的索引。这在使用打包张量格式(批次和序列长度的单维度)时很有用。

返回

transformers.modeling_outputs.CausalLMOutputWithPasttuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个 torch.FloatTensor 元组(如果传入 return_dict=False 或当 config.return_dict=False 时),包含根据配置 (Zamba2Config) 和输入的不同元素。

  • loss (torch.FloatTensor 形状为 (1,)可选,当提供 labels 时返回) — 语言建模损失(用于下一个 token 预测)。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。

  • past_key_values (Cache, optional, 当传入 use_cache=True 或当 config.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息,请参阅我们的 kv cache 指南

    包含预计算的隐藏状态(自注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传入 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(如果模型有嵌入层,则其中一个用于嵌入输出,加上每个层的输出)。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), optional, 当传入 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

Zamba2ForCausalLM 的 forward 方法,覆盖了 __call__ 特殊方法。

尽管前向传播的配方需要在该函数中定义,但此后应调用 Module 实例,而不是该函数,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。

示例

>>> from transformers import AutoTokenizer, Zamba2ForCausalLM

>>> model = Zamba2ForCausalLM.from_pretrained("Zyphra/Zamba2-7B-v1")
>>> tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-7B-v1")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."

Zamba2ForSequenceClassification

class transformers.Zamba2ForSequenceClassification

< >

( config )

参数

带有序列分类头部(线性层)的 Zamba2 模型。

Zamba2ForSequenceClassification 使用最后一个 token 进行分类,与其他因果模型(如 GPT-2)相同。

由于它对最后一个 token 进行分类,因此需要知道最后一个 token 的位置。如果在配置中定义了 pad_token_id,它会在每一行中找到不是填充 token 的最后一个 token。如果没有定义 pad_token_id,它只取批处理中每一行的最后一个值。由于当传入 inputs_embeds 而不是 input_ids 时,它无法猜测填充 token,因此它会做同样的事情(取批处理中每一行的最后一个值)。

此模型继承自 PreTrainedModel。有关库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查看超类文档。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch Module 使用,并参考 PyTorch 文档中所有与一般用法和行为相关的内容。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.SequenceClassifierOutputWithPasttuple(torch.FloatTensor)

参数

  • input_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是 input IDs?

  • attention_mask (形状为 (batch_size, sequence_length)torch.Tensor可选) — 用于避免对填充 token 索引执行注意力操作的掩码。掩码值选择在 [0, 1] 中:

    • 对于 未被掩码 的 token 为 1,
    • 对于 被掩码 的 token 为 0。

    什么是注意力掩码?

  • position_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 位置嵌入中每个输入序列 token 位置的索引。选择范围为 [0, config.n_positions - 1]

    什么是位置 ID?

  • past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在解码前期返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv cache 指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为传统缓存格式。

    模型将输出与输入相同的缓存格式。如果没有传入 past_key_values,则将返回传统缓存格式。

    如果使用 past_key_values,用户可以选择只输入形状为 (batch_size, 1) 的最后一个 input_ids(那些没有将其过去的键值状态提供给此模型的输入),而不是形状为 (batch_size, sequence_length) 的所有 input_ids

  • inputs_embeds (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor可选) — 可选地,您可以选择直接传入嵌入表示,而不是传入 input_ids。如果您希望对如何将 input_ids 索引转换为关联向量具有比模型内部嵌入查找矩阵更多的控制权,则这会很有用。
  • labels (形状为 (batch_size,)torch.LongTensor可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 之间。如果 config.num_labels == 1,则计算回归损失(均方误差损失);如果 config.num_labels > 1,则计算分类损失(交叉熵)。
  • use_cache (bool, 可选) — 如果设置为 True,则返回 past_key_values 键值状态,可用于加速解码(请参阅 past_key_values)。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详情请参阅返回张量中的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回张量中的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是纯元组。

返回

transformers.modeling_outputs.SequenceClassifierOutputWithPasttuple(torch.FloatTensor)

一个 transformers.modeling_outputs.SequenceClassifierOutputWithPast 或一个 torch.FloatTensor 元组(如果传入 return_dict=False 或当 config.return_dict=False 时),包含根据配置(Zamba2Config)和输入而定的各种元素。

  • loss (形状为 (1,)torch.FloatTensor可选,当提供 labels 时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。

  • logits (形状为 (batch_size, config.num_labels)torch.FloatTensor) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。

  • past_key_values (Cache, optional, 当传入 use_cache=True 或当 config.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息,请参阅我们的 kv cache 指南

    包含预计算的隐藏状态(自注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传入 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(如果模型有嵌入层,则其中一个用于嵌入输出,加上每个层的输出)。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), optional, 当传入 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

Zamba2ForSequenceClassification 的 forward 方法,覆盖了 __call__ 特殊方法。

尽管前向传播的配方需要在该函数中定义,但此后应调用 Module 实例,而不是该函数,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。

单标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, Zamba2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
>>> model = Zamba2ForSequenceClassification.from_pretrained("Zyphra/Zamba2-2.7B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = Zamba2ForSequenceClassification.from_pretrained("Zyphra/Zamba2-2.7B", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, Zamba2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
>>> model = Zamba2ForSequenceClassification.from_pretrained("Zyphra/Zamba2-2.7B", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = Zamba2ForSequenceClassification.from_pretrained(
...     "Zyphra/Zamba2-2.7B", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss
< > 在 GitHub 上更新