Transformers 文档

Mamba

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Mamba

概述

Mamba 模型在 Mamba: Linear-Time Sequence Modeling with Selective State Spaces 这篇论文中被提出，作者是 Albert Gu 和 Tri Dao。

这个模型是一种基于 state-space-models 的新范式架构。你可以在这里阅读更多关于其背后的直觉。

以下是论文的摘要

基础模型现在驱动着深度学习中最令人兴奋的应用，几乎普遍基于 Transformer 架构及其核心注意力模块。为了解决 Transformer 在长序列上的计算效率低下问题，人们开发了许多亚二次时间复杂度的架构，例如线性注意力、门控卷积和循环模型，以及结构化状态空间模型 (SSM)，但它们在语言等重要模态上的表现不如注意力机制。我们发现，这类模型的一个关键弱点是它们无法执行基于内容的推理，并对此进行了几项改进。首先，简单地让 SSM 参数成为输入的函数，就可以解决它们在离散模态上的弱点，使模型能够根据当前 token 沿序列长度维度选择性地传播或遗忘信息。其次，即使这种改变阻止了高效卷积的使用，我们也在循环模式下设计了一种硬件感知的并行算法。我们将这些选择性 SSM 集成到一个简化的端到端神经网络架构中，该架构没有注意力机制，甚至没有 MLP 块（Mamba）。Mamba 具有快速推理（吞吐量比 Transformer 高 5 倍）和序列长度的线性扩展性，并且其性能在长达百万长度序列的真实数据上得到提升。作为一种通用的序列模型骨干网络，Mamba 在语言、音频和基因组学等多种模态上实现了最先进的性能。在语言建模方面，我们的 Mamba-3B 模型在预训练和下游评估中都优于同等大小的 Transformer 模型，并且与两倍大小的 Transformer 模型相媲美。

提示

Mamba 是一种新的 state space model 架构，可以与经典的 Transformers 相媲美。它基于结构化状态空间模型的进展，采用高效的硬件感知设计和实现，秉承了 FlashAttention 的精神。
Mamba 堆叠了 mixer 层，这相当于 Attention 层。 mamba 的核心逻辑包含在 MambaMixer 类中。
存在两种实现：一种是优化的，使用快速的 cuda 内核，而另一种是朴素的，但可以在任何设备上运行！
当前的实现利用了原始的 cuda 内核：Mamba 的 flash attention 等效实现托管在 mamba-ssm 和 causal_conv1d 仓库中。如果你的硬件支持它们，请确保安装它们！
欢迎为加速朴素路径做出贡献 🤗

此模型由 ArthurZ 贡献。原始代码可以在这里找到。

使用方法

一个简单的生成示例：

from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("state-spaces/mamba-130m-hf")
model = MambaForCausalLM.from_pretrained("state-spaces/mamba-130m-hf")
input_ids = tokenizer("Hey how are you doing?", return_tensors= "pt")["input_ids"]

out = model.generate(input_ids, max_new_tokens=10)
print(tokenizer.batch_decode(out))

Peft 微调

慢速版本训练不是很稳定，快速版本需要 float32！

from datasets import load_dataset
from trl import SFTTrainer
from peft import LoraConfig
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments
model_id = "state-spaces/mamba-130m-hf"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
dataset = load_dataset("Abirate/english_quotes", split="train")
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    logging_dir='./logs',
    logging_steps=10,
    learning_rate=2e-3
)
lora_config =  LoraConfig(
        r=8,
        target_modules=["x_proj", "embeddings", "in_proj", "out_proj"],
        task_type="CAUSAL_LM",
        bias="none"
)
trainer = SFTTrainer(
    model=model,
    processing_class=tokenizer,
    args=training_args,
    peft_config=lora_config,
    train_dataset=dataset,
    dataset_text_field="quote",
)
trainer.train()

MambaConfig

class transformers.MambaConfig

< source >

( vocab_size = 50280 hidden_size = 768 state_size = 16 num_hidden_layers = 32 layer_norm_epsilon = 1e-05 pad_token_id = 0 bos_token_id = 0 eos_token_id = 0 expand = 2 conv_kernel = 4 use_bias = False use_conv_bias = True hidden_act = 'silu' initializer_range = 0.1 residual_in_fp32 = True time_step_rank = 'auto' time_step_scale = 1.0 time_step_min = 0.001 time_step_max = 0.1 time_step_init_scheme = 'random' time_step_floor = 0.0001 rescale_prenorm_residual = False use_cache = True use_mambapy = False **kwargs )

参数

vocab_size (int, 可选, 默认为 50280) — MAMBA 模型的词汇表大小。定义了在调用 MambaModel 时，通过的 inputs_ids 可以表示的不同 token 的数量。
hidden_size (int, 可选, 默认为 768) — 嵌入和隐藏状态的维度。
state_size (int, 可选, 默认为 16) — 状态空间潜在变量的形状。
num_hidden_layers (int, 可选, 默认为 32) — 模型中的隐藏层数。
layer_norm_epsilon (float, 可选, 默认为 1e-05) — 层归一化层中使用的 epsilon 值。
pad_token_id (int, 可选, 默认为 0) — 填充 token id。
bos_token_id (int, 可选, 默认为 0) — 词汇表中句子起始 token 的 id。
eos_token_id (int, 可选, 默认为 0) — 词汇表中句子结束 token 的 id。
expand (int, 可选, 默认为 2) — 用于确定中间大小的扩展因子。
conv_kernel (int, 可选, 默认为 4) — 卷积核的大小。
use_bias (bool, 可选, 默认为 False) — 是否在 mixer 模块的 [“in_proj”, “out_proj”] 中使用偏置。
use_conv_bias (bool, 可选, 默认为 True) — 是否在 mixer 模块的卷积层中使用偏置。
hidden_act (str, 可选, 默认为 "silu") — 解码器中的非线性激活函数（函数或字符串）。
initializer_range (float, 可选, 默认为 0.1) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
residual_in_fp32 (bool, 可选, 默认为 True) — 残差是否应为 float32。如果设置为 False，残差将保持与模型其余部分相同的 dtype。
time_step_rank (Union[int,str], 可选, 默认为 "auto") — 离散化投影矩阵的秩。 "auto" 表示它将默认为 math.ceil(self.hidden_size / 16)。
time_step_scale (float, 可选, 默认为 1.0) — 用于缩放 dt_proj.bias 的比例。
time_step_min (float, 可选, 默认为 0.001) — 用于限制 dt_proj.bias 的最小 time_step 值。
time_step_max (float, 可选, 默认为 0.1) — 用于限制 dt_proj.bias 的最大 time_step 值。
time_step_init_scheme (float, 可选, 默认为 "random") — 用于 dt_proj.weight 的初始化方案。应该是 ["random","uniform"] 之一。
time_step_floor (float, 可选, 默认为 0.0001) — dt_proj.bias 层初始化的最小钳制值。
rescale_prenorm_residual (bool, 可选, 默认为 False) — 初始化时是否重新缩放 out_proj 权重。
use_cache (bool, 可选, 默认为 True) — 是否应使用缓存。
use_mambapy (bool, 可选, 默认为 False) — 确定在训练期间，如果 CUDA 官方 Mamba 实现不可用时的回退策略。如果为 True，则使用 mamba.py 实现。如果为 False，则使用朴素且较慢的实现。如果内存有限，请考虑切换到朴素版本。

这是用于存储 MambaModel 配置的配置类。它用于根据指定的参数实例化 MAMBA 模型，定义模型架构。使用默认值实例化配置将产生与 MAMBA state-spaces/mamba-2.8b 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 中的文档。

示例

>>> from transformers import MambaConfig, MambaModel

>>> # Initializing a Mamba configuration
>>> configuration = MambaConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = MambaModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

MambaModel

class transformers.MambaModel

< source >

( config )

参数

config (MambaConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

裸 MAMBA 模型 Transformer，输出原始隐藏状态，顶部没有任何特定的 head。

此模型继承自 PreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与常规用法和行为相关的所有事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.LongTensor] = None cache_params: typing.Optional[transformers.cache_utils.MambaCache] = None use_cache: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None ) → transformers.models.mamba.modeling_mamba.MambaOutput or tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, input_ids_length) 的 torch.LongTensor) — 词汇表中输入序列 token 的索引。

如果 cache_params.seqlen_offset>0，则只有未计算其过去的 input_ids 应作为 input_ids 传递。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联向量，这将非常有用。
cache_params (MambaCache，可选) — 如果传入，模型将在所有块中使用之前的状态（这将为提供的 input_ids 提供输出，如同模型添加了 state_input_ids + input_ids 作为上下文）。
use_cache (bool，可选) — 如果设置为 True，则返回 cache_params，并可用于快速生成下一个 logits。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (形状为 (sequence_length) 的 torch.LongTensor，可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 相反，此张量不受 padding 影响。它用于在正确的位置更新缓存并推断完整序列长度。

返回值

transformers.models.mamba.modeling_mamba.MambaOutput 或 tuple(torch.FloatTensor)

一个 transformers.models.mamba.modeling_mamba.MambaOutput 或 torch.FloatTensor 的元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），其中包含取决于配置 (MambaConfig) 和输入的各种元素。

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出端的隐藏状态序列。
cache_params (MambaCache) — 模型在最后时间步的状态。可以在带有下一个 input_ids 的 forward 方法中使用，以避免提供旧的 input_ids。

包括选择性扫描后的状态空间模型状态矩阵和卷积状态
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出端的隐藏状态，加上可选的初始嵌入输出。

MambaModel forward 方法，覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数中定义，但应该在之后调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, MambaModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("state-spaces/mamba-130m-hf")
>>> model = MambaModel.from_pretrained("state-spaces/mamba-130m-hf")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

MambaLMHeadModel

class transformers.MambaForCausalLM

< source >

( config )

参数

config (MambaConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

MAMBA 模型 Transformer，顶部带有语言建模 head（权重与输入嵌入绑定的线性层）。

此模型继承自 PreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与常规用法和行为相关的所有事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None cache_params: typing.Optional[transformers.cache_utils.MambaCache] = None labels: typing.Optional[torch.LongTensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None use_cache: typing.Optional[bool] = None cache_position: typing.Optional[torch.Tensor] = None **kwargs ) → transformers.models.mamba.modeling_mamba.MambaCausalLMOutput or tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, input_ids_length) 的 torch.LongTensor) — 词汇表中输入序列 token 的索引。

如果 cache_params.seqlen_offset>0，则只有未计算其过去的 input_ids 应作为 input_ids 传递。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联向量，这将非常有用。
cache_params (MambaCache，可选) — 如果传入，模型将在所有块中使用之前的状态（这将为提供的 input_ids 提供输出，如同模型添加了 state_input_ids + input_ids 作为上下文）。
use_cache (bool，可选) — 如果设置为 True，则返回 cache_params，并可用于快速生成下一个 logits。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是一个普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 索引描述输入序列 tokens 在序列中的位置。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新缓存并推断完整的序列长度。
labels (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 语言建模的标签。请注意，标签在模型内部被移位，即您可以设置 labels = input_ids。索引在 [-100, 0, ..., config.vocab_size] 中选择。所有设置为 -100 的标签都将被忽略（masked），损失仅针对 [0, ..., config.vocab_size] 中的标签计算。

返回值

transformers.models.mamba.modeling_mamba.MambaCausalLMOutput 或 tuple(torch.FloatTensor)

一个 transformers.models.mamba.modeling_mamba.MambaCausalLMOutput 或一个 torch.FloatTensor 元组 (如果传递了 return_dict=False 或当 config.return_dict=False 时) ，包含各种元素，具体取决于配置 (MambaConfig) 和输入。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 语言建模损失 (用于下一个 token 预测)。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数 (SoftMax 之前每个词汇 token 的分数)。
cache_params (MambaCache) — 模型在最后时间步的状态。可以在带有下一个 input_ids 的 forward 方法中使用，以避免提供旧的 input_ids。

包括选择性扫描后的状态空间模型状态矩阵和卷积状态
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出端的隐藏状态，加上可选的初始嵌入输出。

The MambaForCausalLM 的 forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> import torch
>>> from transformers import AutoTokenizer, MambaForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("state-spaces/mamba-130m-hf")
>>> model = MambaForCausalLM.from_pretrained("state-spaces/mamba-130m-hf")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

< > 在 GitHub 上更新

←MADLAD-400 mamba2→