Transformers 文档

GraniteMoe

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

GraniteMoe

PyTorch FlashAttention SDPA

概述

GraniteMoe 模型由 Yikang Shen, Matthew Stallone, Mayank Mishra, Gaoyuan Zhang, Shawn Tan, Aditya Prasad, Adriana Meza Soria, David D. Cox 和 Rameswar Panda 在论文 Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler 中提出。

PowerMoE-3B 是一个 3B 参数的稀疏专家混合(sMoE)语言模型,采用 Power 学习率调度器进行训练。它为每个词元稀疏地激活 8 亿个参数。该模型在开源和专有数据集的混合数据上进行训练。PowerMoE-3B 在各种基准测试中,包括自然语言多项选择、代码生成和数学推理,与激活参数量为 2 倍的其他密集模型相比,表现出了有希望的结果。

论文摘要如下:

为语言模型预训练寻找最优学习率是一项具有挑战性的任务。这不仅是因为学习率、批量大小、训练词元数量、模型大小和其他超参数之间存在复杂的相关性,还因为对拥有数十亿或数万亿参数的大型语言模型进行超参数搜索的成本高得令人望而却步。最近的研究建议使用小型代理模型和小语料库进行超参数搜索,并将最优参数转移到大型模型和大型语料库上。虽然模型大小相关超参数(如深度和宽度)的零样本迁移能力在理论上和经验上都得到了证明,但从小语料库到大语料库的零样本迁移尚未得到充分探索。在本文中,我们研究了最近提出的 WSD 调度器中,最优学习率、批量大小和训练词元数量之间的相关性。经过数千次小规模实验,我们发现了变量之间的幂律关系,并证明了其在不同模型大小上的可迁移性。基于这一观察,我们提出了一种新的学习率调度器——Power 调度器,它对训练词元数量和批量大小无关。实验表明,将 Power 调度器与最大更新参数化(\mup)相结合,无论训练词元数量、批量大小、模型大小甚至模型架构如何,都可以用一组超参数持续获得令人印象深刻的性能。我们用 Power 调度器训练的 3B 密集模型和 MoE 模型,其性能可与最先进的小型语言模型相媲美。我们开源了这些预训练模型。

技巧

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "ibm/PowerMoE-3b"
tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")
model.eval()

# change input text as desired
prompt = "Write a code to find the maximum value in a list of numbers."

# tokenize the text
input_tokens = tokenizer(prompt, return_tensors="pt")
# generate output tokens
output = model.generate(**input_tokens, max_new_tokens=100)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# loop over the batch to print, in this example the batch size is 1
for i in output:
    print(i)

该模型由 mayank-mishra 贡献。

GraniteMoeConfig

class transformers.GraniteMoeConfig

< >

( vocab_size = 32000 hidden_size = 4096 intermediate_size = 11008 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = None hidden_act = 'silu' max_position_embeddings = 2048 initializer_range = 0.02 rms_norm_eps = 1e-06 use_cache = True pad_token_id = None bos_token_id = 1 eos_token_id = 2 tie_word_embeddings = False rope_theta = 10000.0 rope_scaling = None attention_bias = False attention_dropout = 0.0 embedding_multiplier = 1.0 logits_scaling = 1.0 residual_multiplier = 1.0 attention_multiplier = 1.0 num_local_experts = 8 num_experts_per_tok = 2 output_router_logits = False router_aux_loss_coef = 0.001 **kwargs )

参数

  • vocab_size (int, optional, 默认为 32000) — GraniteMoe 模型的词汇表大小。定义了在调用 GraniteMoeModel 时,可以通过 inputs_ids 表示的不同词元的数量。
  • hidden_size (int, optional, 默认为 4096) — 隐藏表示的维度。
  • intermediate_size (int, optional, 默认为 11008) — MLP 表示的维度。
  • num_hidden_layers (int, optional, 默认为 32) — Transformer 解码器中的隐藏层数量。
  • num_attention_heads (int, optional, 默认为 32) — Transformer 解码器中每个注意力层的注意力头数量。
  • num_key_value_heads (int, optional) — 这是用于实现分组查询注意力(Grouped Query Attention)的键值头数量。如果 num_key_value_heads=num_attention_heads,模型将使用多头注意力(MHA);如果 num_key_value_heads=1,模型将使用多查询注意力(MQA);否则将使用 GQA。将多头检查点转换为 GQA 检查点时,每个分组的键和值头应通过对该组内所有原始头进行均值池化来构建。更多详情请参阅 这篇论文。如果未指定,将默认为 num_attention_heads
  • hidden_act (strfunction, optional, 默认为 "silu") — 解码器中的非线性激活函数(函数或字符串)。
  • max_position_embeddings (int, optional, 默认为 2048) — 该模型可能使用的最大序列长度。
  • initializer_range (float, optional, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。
  • rms_norm_eps (float, optional, 默认为 1e-06) — rms 归一化层使用的 epsilon 值。
  • use_cache (bool, optional, 默认为 True) — 模型是否应返回最后一个键/值注意力(并非所有模型都使用)。仅当 config.is_decoder=True 时相关。
  • pad_token_id (int, optional) — 填充词元 ID。
  • bos_token_id (int, optional, 默认为 1) — 序列开始词元 ID。
  • eos_token_id (int, optional, 默认为 2) — 序列结束词元 ID。
  • tie_word_embeddings (bool, optional, 默认为 False) — 是否绑定词嵌入权重。
  • rope_theta (float, optional, 默认为 10000.0) — RoPE 嵌入的基础周期。
  • rope_scaling (Dict, optional) — 包含 RoPE 嵌入缩放配置的字典。目前支持两种缩放策略:线性和动态。它们的缩放因子必须是大于 1 的浮点数。预期格式为 {"type": 策略名称, "factor": 缩放因子}。使用此标志时,不要将 max_position_embeddings 更新为预期的新最大值。有关这些缩放策略行为的更多信息,请参阅以下帖子: https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/。这是一个实验性功能,未来版本中可能会有破坏性的 API 变更。
  • attention_bias (bool, optional, 默认为 False) — 在自注意力期间是否在查询、键、值和输出投影层中使用偏置。
  • attention_dropout (float, optional, 默认为 0.0) — 注意力概率的 dropout 比率。
  • embedding_multiplier (float, optional, 默认为 1.0) — 嵌入乘数。
  • logits_scaling (float, optional, 默认为 1.0) — 输出 logits 的除数。
  • residual_multiplier (float, optional, 默认为 1.0) — 残差乘数。
  • attention_multiplier (float, optional, 默认为 1.0) — 注意力乘数。
  • num_local_experts (int, optional, 默认为 8) — 专家总数。
  • num_experts_per_tok (int, 可选, 默认为 2) — 每个 token 的专家数量
  • output_router_logits (bool, 可选, 默认为 False) — 模型是否应返回路由器的 logits。启用此选项也会允许模型输出辅助损失。
  • router_aux_loss_coef (float, 可选, 默认为 0.001) — 路由器辅助损失系数

这是一个用于存储 GraniteMoeModel 配置的配置类。它用于根据指定的参数实例化一个 GraniteMoe 模型,定义模型架构。使用默认值实例化配置将产生与 GraniteMoe-3B 类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。请阅读 PretrainedConfig 的文档以获取更多信息。

>>> from transformers import GraniteMoeModel, GraniteMoeConfig

>>> # Initializing a GraniteMoe granitemoe-3b style configuration
>>> configuration = GraniteMoeConfig()

>>> # Initializing a model from the granitemoe-7b style configuration
>>> model = GraniteMoeModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

GraniteMoeModel

class transformers.GraniteMoeModel

< >

( config: GraniteMoeConfig )

参数

  • config (GraniteMoeConfig) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

裸的 Granitemoe 模型,输出原始的隐藏状态,顶部没有任何特定的头。

此模型继承自 PreTrainedModel。请查阅超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。可以像常规的 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_router_logits: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.BaseModelOutputWithPasttuple(torch.FloatTensor)

参数

  • input_ids (形状为 (batch_size, sequence_length)torch.LongTensor, 可选) — 词汇表中输入序列标记的索引。默认情况下将忽略填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • attention_mask (形状为 (batch_size, sequence_length)torch.Tensor, 可选) — 用于避免对填充标记索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示标记未被遮盖
    • 0 表示标记被遮盖

    什么是注意力掩码?

  • position_ids (形状为 (batch_size, sequence_length)torch.LongTensor, 可选) — 每个输入序列标记在位置嵌入中的位置索引。选值范围为 [0, config.n_positions - 1]

    什么是位置 ID?

  • past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 预计算的隐藏状态(自注意力和交叉注意力块中的键和值),可用于加速序列解码。这通常包括模型在先前解码阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv 缓存指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为旧版缓存格式。

    模型将输出与输入相同的缓存格式。如果未传递 past_key_values,将返回旧版缓存格式。

    如果使用 past_key_values,用户可以选择只输入最后一个 input_ids(那些没有为其提供过去键值状态的标记),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)input_ids

  • inputs_embeds (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor, 可选) — 可选地,你可以选择直接传递嵌入表示而不是 input_ids。如果你希望比模型内部的嵌入查找矩阵更能控制如何将 input_ids 索引转换为关联向量,这会很有用。
  • use_cache (bool, 可选) — 如果设置为 True,则返回 past_key_values 键值状态,可用于加速解码(请参阅 past_key_values)。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • output_router_logits (bool, 可选) — 是否返回所有路由器的 logits。它们对于计算路由器损失很有用,在推理过程中不应返回。
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • cache_position (形状为 (sequence_length)torch.LongTensor, 可选) — 描述输入序列标记在序列中位置的索引。与 position_ids 相反,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。

返回

transformers.modeling_outputs.BaseModelOutputWithPasttuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPast 或一个 `torch.FloatTensor` 元组(如果传递了 `return_dict=False` 或当 `config.return_dict=False` 时),根据配置(GraniteMoeConfig)和输入包含各种元素。

  • last_hidden_state (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。

    如果使用了 past_key_values,则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。

  • past_key_values (Cache, 可选, 在传递 use_cache=Trueconfig.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息,请参阅我们的 kv 缓存指南

    包含预计算的隐藏状态(自注意块中的键和值,以及在 `config.is_encoder_decoder=True` 时交叉注意块中的键和值),可用于(请参阅 `past_key_values` 输入)加速序列解码。

  • hidden_states (tuple(torch.FloatTensor), 可选, 在传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则一个为嵌入层的输出,+ 每个层的输出一个),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 在传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

GraniteMoeModel 的 forward 方法,重写了 `__call__` 特殊方法。

虽然前向传播的配方需要在此函数内定义,但之后应调用 `Module` 实例而不是此函数,因为前者会处理运行前处理和后处理步骤,而后者会默默地忽略它们。

GraniteMoeForCausalLM

class transformers.GraniteMoeForCausalLM

< >

( config: GraniteMoeConfig )

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_router_logits: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs ) transformers.modeling_outputs.MoeCausalLMOutputWithPasttuple(torch.FloatTensor)

参数

  • input_ids (形状为 (batch_size, sequence_length)torch.LongTensor, 可选) — 词汇表中输入序列标记的索引。默认情况下将忽略填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • attention_mask (形状为 (batch_size, sequence_length)torch.Tensor, 可选) — 用于避免对填充标记索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示标记未被遮盖
    • 0 表示标记被遮盖

    什么是注意力掩码?

  • position_ids (形状为 (batch_size, sequence_length)torch.LongTensor, 可选) — 每个输入序列标记在位置嵌入中的位置索引。选值范围为 [0, config.n_positions - 1]

    什么是位置 ID?

  • past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 预计算的隐藏状态(自注意力和交叉注意力块中的键和值),可用于加速序列解码。这通常包括模型在先前解码阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv 缓存指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为旧版缓存格式。

    模型将输出与输入相同的缓存格式。如果未传递 past_key_values,将返回旧版缓存格式。

    如果使用 past_key_values,用户可以选择只输入最后一个 input_ids(那些没有为其提供过去键值状态的标记),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)input_ids

  • inputs_embeds (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor, 可选) — 可选地,你可以选择直接传递嵌入表示而不是 input_ids。如果你希望比模型内部的嵌入查找矩阵更能控制如何将 input_ids 索引转换为关联向量,这会很有用。
  • labels (形状为 (batch_size, sequence_length)torch.LongTensor, 可选) — 用于计算掩码语言建模损失的标签。索引应在 [0, ..., config.vocab_size] 或 -100 之间(请参阅 input_ids 文档字符串)。索引设置为 -100 的标记将被忽略(遮盖),损失仅对标签在 [0, ..., config.vocab_size] 内的标记计算。
  • use_cache (bool, 可选) — 如果设置为 True,则返回 past_key_values 键值状态,可用于加速解码(请参阅 past_key_values)。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • output_router_logits (bool, 可选) — 是否返回所有路由器的 logits。它们对于计算路由器损失很有用,在推理过程中不应返回。
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • cache_position (形状为 (sequence_length)torch.LongTensor, 可选) — 描述输入序列标记在序列中位置的索引。与 position_ids 相反,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。
  • logits_to_keep (Union[int, torch.Tensor], 默认为 0) — 如果是 int,则计算最后 logits_to_keep 个标记的 logits。如果为 0,则计算所有 input_ids 的 logits(特殊情况)。生成时只需要最后一个标记的 logits,仅为此标记计算 logits 可以节省内存,这对于长序列或大词汇表大小变得非常重要。如果是 torch.Tensor,则必须是一维的,对应于序列长度维度中要保留的索引。这在使用打包张量格式(批处理和序列长度的单个维度)时非常有用。

返回

transformers.modeling_outputs.MoeCausalLMOutputWithPasttuple(torch.FloatTensor)

一个 transformers.modeling_outputs.MoeCausalLMOutputWithPast 或一个 `torch.FloatTensor` 元组(如果传递了 `return_dict=False` 或当 `config.return_dict=False` 时),根据配置(GraniteMoeConfig)和输入包含各种元素。

  • loss (torch.FloatTensor 形状为 (1,)可选,当提供 labels 时返回) — 语言建模损失(用于下一个 token 预测)。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。

  • aux_loss (torch.FloatTensor可选,当提供 labels 时返回) — 稀疏模块的辅助损失。

  • router_logits (tuple(torch.FloatTensor), 可选, 在传递 output_router_probs=Trueconfig.add_router_probs=Trueconfig.output_router_probs=True 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, sequence_length, num_experts)`。

    由 MoE 路由器计算的原始路由器对数(softmax 后),这些术语用于计算专家混合模型的辅助损失。

  • past_key_values (Cache, 可选, 在传递 use_cache=Trueconfig.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息,请参阅我们的 kv 缓存指南

    包含预计算的隐藏状态(自注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • hidden_states (tuple(torch.FloatTensor), 可选, 在传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则一个为嵌入层的输出,+ 每个层的输出一个),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 在传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

GraniteMoeForCausalLM 的 forward 方法,重写了 `__call__` 特殊方法。

虽然前向传播的配方需要在此函数内定义,但之后应调用 `Module` 实例而不是此函数,因为前者会处理运行前处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, GraniteMoeForCausalLM

>>> model = GraniteMoeForCausalLM.from_pretrained("ibm/PowerMoE-3b")
>>> tokenizer = AutoTokenizer.from_pretrained("ibm/PowerMoE-3b")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
< > 在 GitHub 上更新