Transformers 文档

Jamba

Transformers

加入 Hugging Face 社区

并获取增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Jamba

概述

Jamba 是一种最先进的混合 SSM-Transformer LLM。它是首个生产规模的 Mamba 实现，为有趣的研究和应用机会打开了大门。虽然这项初步实验显示出令人鼓舞的进展，但我们预计通过未来的优化和探索，这些进展将得到进一步增强。

有关此模型的完整详细信息，请阅读发布博客文章。

模型详情

Jamba 是一个预训练的混合专家 (MoE) 生成文本模型，具有 120 亿个活跃参数和跨所有专家的总共 520 亿个参数。它支持 256K 上下文长度，并且可以在单个 80GB GPU 上容纳多达 140K 个 tokens。

如下图所示，Jamba 的架构采用块和层的结构，使 Jamba 能够成功地将 Transformer 和 Mamba 架构完全集成在一起。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后跟一个多层感知器 (MLP)，总体比例为每八个总层中有一个 Transformer 层。

使用方法

先决条件

Jamba 要求您使用 transformers 版本 4.39.0 或更高版本

pip install transformers>=4.39.0

为了运行优化的 Mamba 实现，您首先需要安装 mamba-ssm 和 causal-conv1d

pip install mamba-ssm causal-conv1d>=1.2.0

您还必须将模型放在 CUDA 设备上。

您可以不使用优化的 Mamba 内核来运行模型，但**不**建议这样做，因为它会导致延迟显着降低。为了做到这一点，您需要在加载模型时指定 use_mamba_kernels=False。

运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("ai21labs/Jamba-v0.1")
tokenizer = AutoTokenizer.from_pretrained("ai21labs/Jamba-v0.1")

input_ids = tokenizer("In the recent Super Bowl LVIII,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)

print(tokenizer.batch_decode(outputs))
# ["<|startoftext|>In the recent Super Bowl LVIII, the Kansas City Chiefs emerged victorious, defeating the San Francisco 49ers in a thrilling overtime showdown. The game was a nail-biter, with both teams showcasing their skills and determination.\n\nThe Chiefs, led by their star quarterback Patrick Mahomes, displayed their offensive prowess, while the 49ers, led by their strong defense, put up a tough fight. The game went into overtime, with the Chiefs ultimately securing the win with a touchdown.\n\nThe victory marked the Chiefs' second Super Bowl win in four years, solidifying their status as one of the top teams in the NFL. The game was a testament to the skill and talent of both teams, and a thrilling end to the NFL season.\n\nThe Super Bowl is not just about the game itself, but also about the halftime show and the commercials. This year's halftime show featured a star-studded lineup, including Usher, Alicia Keys, and Lil Jon. The show was a spectacle of music and dance, with the performers delivering an energetic and entertaining performance.\n"]

以半精度加载模型

发布的检查点以 BF16 格式保存。为了以 BF16/FP16 格式将其加载到 RAM 中，您需要指定 torch_dtype

from transformers import AutoModelForCausalLM
import torch
model = AutoModelForCausalLM.from_pretrained("ai21labs/Jamba-v0.1", torch_dtype=torch.bfloat16)
# you can also use torch_dtype=torch.float16

当使用半精度时，您可以启用 Attention 块的 FlashAttention2 实现。为了使用它，您还需要将模型放在 CUDA 设备上。由于在这种精度下模型太大而无法在单个 80GB GPU 上容纳，因此您还需要使用 accelerate 对其进行并行化

from transformers import AutoModelForCausalLM
import torch
model = AutoModelForCausalLM.from_pretrained("ai21labs/Jamba-v0.1",
                                             torch_dtype=torch.bfloat16,
                                             attn_implementation="flash_attention_2",
                                             device_map="auto")

以 8 位加载模型

**使用 8 位精度，可以在单个 80GB GPU 上容纳多达 140K 序列长度。** 您可以使用 bitsandbytes 轻松地将模型量化为 8 位。为了不降低模型质量，我们建议从量化中排除 Mamba 块

from transformers import AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True, llm_int8_skip_modules=["mamba"])
model = AutoModelForCausalLM.from_pretrained(
    "ai21labs/Jamba-v0.1", torch_dtype=torch.bfloat16, attn_implementation="flash_attention_2", quantization_config=quantization_config
)

JambaConfig

class transformers.JambaConfig

< source >

( vocab_size = 65536 tie_word_embeddings = False hidden_size = 4096 intermediate_size = 14336 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = 8 hidden_act = 'silu' initializer_range = 0.02 rms_norm_eps = 1e-06 use_cache = True num_logits_to_keep = 1 output_router_logits = False router_aux_loss_coef = 0.001 pad_token_id = 0 bos_token_id = 1 eos_token_id = 2 sliding_window = None max_position_embeddings = 262144 attention_dropout = 0.0 num_experts_per_tok = 2 num_experts = 16 expert_layer_period = 2 expert_layer_offset = 1 attn_layer_period = 8 attn_layer_offset = 4 use_mamba_kernels = True mamba_d_state = 16 mamba_d_conv = 4 mamba_expand = 2 mamba_dt_rank = 'auto' mamba_conv_bias = True mamba_proj_bias = False **kwargs )

参数

vocab_size (int, 可选, 默认为 65536) — Jamba 模型的词汇表大小。定义调用 JambaModel 时传递的 inputs_ids 可以表示的不同 tokens 的数量
tie_word_embeddings (bool, 可选, 默认为 False) — 模型输入和输出词嵌入是否应该绑定。请注意，这仅在模型具有输出词嵌入层时才相关。
hidden_size (int, 可选, 默认为 4096) — 隐藏层表示的维度。
intermediate_size (int, 可选, 默认为 14336) — MLP 表示的维度。
num_hidden_layers (int, 可选, 默认为 32) — Transformer 编码器中隐藏层的数量。
num_attention_heads (int, 可选, 默认为 32) — Transformer 编码器中每个注意力层的注意力头的数量。
num_key_value_heads (int, 可选, 默认为 8) — 这是应用于实现分组查询注意力（Grouped Query Attention）的 key_value 头的数量。如果 num_key_value_heads=num_attention_heads，模型将使用多头注意力（Multi Head Attention, MHA）；如果 num_key_value_heads=1，模型将使用多查询注意力（Multi Query Attention, MQA）；否则使用 GQA。当将多头检查点转换为 GQA 检查点时，每个组 key 和 value 头应通过对该组内所有原始头进行均值池化来构建。有关更多详细信息，请查看本文。如果未指定，则默认为 8。
hidden_act (str 或 function, 可选, 默认为 "silu") — 解码器中的非线性激活函数（函数或字符串）。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
rms_norm_eps (float, 可选, 默认为 1e-06) — rms 归一化层使用的 epsilon 值。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的 key/values 注意力（并非所有模型都使用）。仅当 config.is_decoder=True 时相关。
num_logits_to_keep (int 或 None, 可选, 默认为 1) — 生成期间要计算的 prompt logits 的数量。如果为 None，将计算所有 logits。如果为整数值，则仅计算最后 num_logits_to_keep 个 logits。默认为 1，因为生成只需要最后一个 prompt token 的 logits。对于长序列，整个序列的 logits 可能会占用大量内存，因此，设置 num_logits_to_keep=1 将显着减少内存占用。
output_router_logits (bool, 可选, 默认为 False) — 模型是否应返回路由器 logits。启用此功能还将允许模型输出辅助损失。有关更多详细信息，请参阅此处
router_aux_loss_coef (float, 可选, 默认为 0.001) — 用于总损失的辅助损失因子。
pad_token_id (int, 可选, 默认为 0) — padding token 的 id。
bos_token_id (int, optional, defaults to 1) — 序列开始 (beginning-of-sequence) 标记的 id，默认为 1。
eos_token_id (int, optional, defaults to 2) — 序列结束 (end-of-sequence) 标记的 id，默认为 2。
sliding_window (int, optional) — 滑动窗口注意力窗口大小。如果未指定，则默认为 None。
max_position_embeddings (int, optional, defaults to 262144) — 此值没有任何实际效果。此模型旨在使用的最大序列长度。它可以与更长的序列一起使用，但性能可能会下降。
attention_dropout (float, optional, defaults to 0.0) — 注意力概率的 dropout 比率，默认为 0.0。
num_experts_per_tok (int, optional, defaults to 2) — 每个 token 要路由的专家数量，也可以解释为 top-p 路由参数，默认为 2。
num_experts (int, optional, defaults to 16) — 每个稀疏 MLP 层的专家数量，默认为 16。
expert_layer_period (int, optional, defaults to 2) — 每隔多少层会有一个专家层，默认为每隔 2 层。
expert_layer_offset (int, optional, defaults to 1) — 包含专家 mlp 层的第一个层索引，默认为 1。
attn_layer_period (int, optional, defaults to 8) — 每隔多少层会有一个 vanilla 注意力层，默认为每隔 8 层。
attn_layer_offset (int, optional, defaults to 4) — 包含 vanilla 注意力 mlp 层的第一个层索引，默认为 4。
use_mamba_kernels (bool, optional, defaults to True) — 标志，指示是否使用快速 mamba 内核。仅当安装了 mamba-ssm 和 causal-conv1d，并且 mamba 模块在 CUDA 设备上运行时，这些内核才可用。如果为 True 且内核不可用，则会引发 ValueError。
mamba_d_state (int, optional, defaults to 16) — mamba 状态空间潜在维度的维度，默认为 16。
mamba_d_conv (int, optional, defaults to 4) — mamba 卷积核的大小，默认为 4。
mamba_expand (int, optional, defaults to 2) — 用于确定 mamba 中间大小的扩展因子（相对于 hidden_size），默认为 2。
mamba_dt_rank (Union[int,str], optional, defaults to "auto") — mamba 离散化投影矩阵的秩。 "auto" 表示它将默认为 math.ceil(self.hidden_size / 16)，默认为 "auto"。
mamba_conv_bias (bool, optional, defaults to True) — 标志，指示是否在 mamba 混合器块的卷积层中使用偏置，默认为 True。
mamba_proj_bias (bool, optional, defaults to False) — 标志，指示是否在 mamba 混合器块的输入和输出投影（[“in_proj”, “out_proj”]）中使用偏置，默认为 False。

这是用于存储 JambaModel 配置的配置类。它用于根据指定的参数实例化 Jamba 模型，定义模型架构。使用默认值实例化配置将产生与 Jamba-v0.1 模型类似的配置。

ai21labs/Jamba-v0.1

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 中的文档。

JambaModel

class transformers.JambaModel

< source >

( config: JambaConfig )

参数

config (JambaConfig) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。
config — JambaConfig

裸 Jamba 模型，输出原始隐藏状态，顶部没有任何特定的 head。此模型继承自 PreTrainedModel。查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与常规用法和行为相关的所有事项。

由 config.num_hidden_layers 层组成的 Transformer 解码器。每一层都是一个 JambaDecoderLayer

forward

< source >

( input_ids: LongTensor = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.models.jamba.modeling_jamba.HybridMambaAttentionDynamicCache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_router_logits: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None )

参数

input_ids (torch.LongTensor, 形状为 (batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。如果您提供 padding，默认情况下将忽略 padding。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是 input IDs？
attention_mask (torch.Tensor, 形状为 (batch_size, sequence_length), optional) — 掩码，以避免在 padding token 索引上执行注意力机制。掩码值在 [0, 1] 中选择：
- 1 表示 token 未被掩码，
- 0 表示 token 已被掩码。
什么是注意力掩码？

索引可以使用 AutoTokenizer 获得。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

如果使用 past_key_values，则可以选择仅输入最后一个 input_ids（请参见 past_key_values）。

如果要更改 padding 行为，则应阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需求进行修改。有关默认策略的更多信息，请参见论文中的图 1。
- 1 表示 head 未被掩码，
- 0 表示 head 已被掩码。
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列 token 在位置嵌入中的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 ID？
past_key_values (HybridMambaAttentionDynamicCache，可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 一个 HybridMambaAttentionDynamicCache 对象，包含预先计算的隐藏状态（自注意力模块中的键和值，以及 Mamba 模块中的卷积和 SSM 状态），可以用于（参见 past_key_values 输入）加速顺序解码。键和值缓存张量的形状为 (batch_size, num_heads, seq_len, head_dim)。卷积和 SSM 状态张量的形状分别为 (batch_size, d_inner, d_conv) 和 (batch_size, d_inner, d_state)。有关更多详细信息，请参阅 HybridMambaAttentionDynamicCache 类。

如果使用 past_key_values，用户可以选择仅输入最后一次的 input_ids （那些没有为其提供过去的键值状态的模型），形状为 (batch_size, 1)，而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联向量，这将非常有用。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
output_router_logits (bool，可选) — 是否返回所有路由器的 logits。它们对于计算路由器损失很有用，不应在推理期间返回。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是纯元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新缓存，并推断完整的序列长度。

JambaModel 的 forward 方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数内定义，但应该在之后调用 Module 实例，而不是调用此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

JambaForCausalLM

class transformers.JambaForCausalLM

< source >

( config: JambaConfig )

forward

< source >

( input_ids: LongTensor = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.models.jamba.modeling_jamba.HybridMambaAttentionDynamicCache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_router_logits: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **loss_kwargs ) → transformers.modeling_outputs.MoeCausalLMOutputWithPast 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。如果您提供 padding，默认情况下将被忽略。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在 padding token 索引上执行注意力的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示 token 未被掩蔽，
- 0 表示 token 被掩蔽。
什么是注意力掩码？

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

如果使用 past_key_values，则可以选择仅输入最后一次的 input_ids （请参阅 past_key_values）。

如果要更改 padding 行为，则应阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需要进行修改。有关默认策略的更多信息，请参见论文中的图 1。
- 1 表示 head 未被掩蔽，
- 0 表示 head 被掩蔽。
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列 token 在位置嵌入中的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 ID？
past_key_values (HybridMambaAttentionDynamicCache，可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 一个 HybridMambaAttentionDynamicCache 对象，包含预先计算的隐藏状态（自注意力模块中的键和值，以及 Mamba 模块中的卷积和 SSM 状态），可以用于（参见 past_key_values 输入）加速顺序解码。键和值缓存张量的形状为 (batch_size, num_heads, seq_len, head_dim)。卷积和 SSM 状态张量的形状分别为 (batch_size, d_inner, d_conv) 和 (batch_size, d_inner, d_state)。有关更多详细信息，请参阅 HybridMambaAttentionDynamicCache 类。

如果使用 past_key_values，用户可以选择仅输入最后一次的 input_ids （那些没有为其提供过去的键值状态的模型），形状为 (batch_size, 1)，而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联向量，这将非常有用。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
output_router_logits (bool，可选) — 是否返回所有路由器的 logits。它们对于计算路由器损失很有用，不应在推理期间返回。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是纯元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新缓存，并推断完整的序列长度。
labels (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 用于计算 masked language modeling 损失的标签。索引应在 [0, ..., config.vocab_size] 或 -100 中（请参阅 input_ids docstring）。索引设置为 -100 的 token 将被忽略（掩蔽），损失仅针对标签在 [0, ..., config.vocab_size] 中的 token 计算。
logits_to_keep (int 或 torch.Tensor, 可选) — 如果是 int，则计算最后 logits_to_keep 个 tokens 的 logits。如果为 0，则计算所有 input_ids 的 logits (特殊情况)。生成只需要最后一个 token 的 logits，并且仅为该 token 计算 logits 可以节省内存，这对于长序列或大型词汇表大小来说非常重要。如果是 torch.Tensor，则必须是与序列长度维度中要保留的索引相对应的 1D 张量。这在使用打包张量格式（批次和序列长度的单个维度）时非常有用。

transformers.modeling_outputs.MoeCausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.MoeCausalLMOutputWithPast 或 torch.FloatTensor 的元组 (如果传递了 return_dict=False 或当 config.return_dict=False 时)，包含各种元素，具体取决于配置 (JambaConfig) 和输入。

loss (形状为 (1,) 的 torch.FloatTensor, 可选, 当提供 labels 时返回) — 语言建模损失 (用于下一个 token 预测)。
logits (形状为 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 语言建模头的预测分数 (SoftMax 之前每个词汇表 token 的分数)。
aux_loss (torch.FloatTensor, 可选, 当提供 labels 时返回) — 稀疏模块的 aux_loss。
router_logits (tuple(torch.FloatTensor), 可选, 当传递 output_router_probs=True 和 config.add_router_probs=True 或当 config.output_router_probs=True 时返回) — 形状为 (batch_size, sequence_length, num_experts) 的 torch.FloatTensor 元组 (每层一个)。

MoE 路由器计算的原始路由器 logits (softmax 后)，这些项用于计算专家混合模型的辅助损失。
past_key_values (tuple(tuple(torch.FloatTensor)), 可选, 当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(tuple(torch.FloatTensor))，其中每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量)

包含预先计算的隐藏状态 (自注意力模块中的键和值)，可以用于（请参阅 past_key_values 输入) 加速顺序解码。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组 (对于嵌入的输出，如果模型具有嵌入层，则为 1 个；对于每层的输出，则为 1 个)，形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出的隐藏状态，加上可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组 (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

JambaForCausalLM forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, JambaForCausalLM

>>> model = JambaForCausalLM.from_pretrained("ai21labs/Jamba-v0.1")
>>> tokenizer = AutoTokenizer.from_pretrained("ai21labs/Jamba-v0.1")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."

JambaForSequenceClassification

class transformers.JambaForSequenceClassification

< source >

( config )

参数

config (JambaConfig) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained() 方法来加载模型权重。

Jamba 模型，顶部带有序列分类头 (线性层)。

JambaForSequenceClassification 使用最后一个 token 进行分类，就像其他因果模型 (例如 GPT-2) 一样。

由于它在最后一个 token 上进行分类，因此需要知道最后一个 token 的位置。如果在配置中定义了 pad_token_id，它会找到每行中最后一个不是 padding token 的 token。如果未定义 pad_token_id，它只取批次中每行的最后一个值。由于当传递 inputs_embeds 而不是 input_ids 时，它无法猜测 padding token，因此它执行相同的操作 (取批次中每行的最后一个值)。

此模型继承自 PreTrainedModel。查看超类文档，了解库为其所有模型实现的通用方法 (例如下载或保存、调整输入嵌入大小、剪枝头等)。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与常规用法和行为相关的所有事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.List[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None )

参数

input_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor) — 词汇表中输入序列 tokens 的索引。如果您提供 padding，默认情况下将被忽略。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 IDs？
attention_mask (形状为 (batch_size, sequence_length) 的 torch.Tensor, 可选) — 用于避免对 padding token 索引执行注意力的掩码。在 [0, 1] 中选择的掩码值：
- 1 表示 未被掩码 的 tokens，
- 0 表示 被掩码 的 tokens。
什么是 attention masks？

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

如果使用 past_key_values，则可以选择仅输入最后一个 input_ids (请参阅 past_key_values)。

如果您想更改 padding 行为，您应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需要进行修改。有关默认策略的更多信息，请参阅论文中的图 1。
- 1 表示 head 未被掩码，
- 0 表示 head 被掩码。
position_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 位置嵌入中每个输入序列 tokens 的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是 position IDs？
past_key_values (HybridMambaAttentionDynamicCache, 可选, 当传递 use_cache=True 或当 config.use_cache=True 时返回) — 一个 HybridMambaAttentionDynamicCache 对象，包含预先计算的隐藏状态 (自注意力模块中的键和值以及 mamba 模块中的卷积和 ssm 状态)，可以用于 (请参阅 past_key_values 输入) 加速顺序解码。键和值缓存张量的形状为 (batch_size, num_heads, seq_len, head_dim)。卷积和 ssm 状态张量的形状分别为 (batch_size, d_inner, d_conv) 和 (batch_size, d_inner, d_state)。有关更多详细信息，请参阅 HybridMambaAttentionDynamicCache 类。

如果使用 past_key_values，用户可以选择仅输入最后一个 input_ids (那些没有将其过去的键值状态提供给此模型的 input_ids) ，形状为 (batch_size, 1)，而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您想比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联向量，这将非常有用。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码 (请参阅 past_key_values)。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
output_router_logits (bool, 可选) — 是否返回所有路由器的 logits。它们对于计算路由器损失很有用，不应在推理期间返回。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (形状为 (sequence_length) 的 torch.LongTensor, 可选) — 描述输入序列 tokens 在序列中位置的索引。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新缓存并推断完整的序列长度。
labels (形状为 (batch_size,) 的 torch.LongTensor, 可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1，则计算回归损失 (均方损失)。如果 config.num_labels > 1，则计算分类损失 (交叉熵)。

JambaForSequenceClassification forward 方法，覆盖了 __call__ 特殊方法。

< > Update on GitHub

←I-BERT JetMoe→