Transformers 文档

DiffLlama

Transformers

加入 Hugging Face 社区

并获取增强的文档体验

协作开发模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

DiffLlama

概述

DiffLlama 模型由 Kazuma Matsumoto 在 Differential Transformer 中提出。此模型结合了 Llama 模型和 Differential Transformer 的 Attention 机制。

以下是论文的摘要：

Transformer 倾向于过度分配注意力给不相关的上下文。在这项工作中，我们介绍了 Diff Transformer，它可以放大对相关上下文的注意力，同时消除噪声。具体来说，差分注意力机制将注意力分数计算为两个独立的 softmax 注意力图之间的差异。减法消除了噪声，促进了稀疏注意力模式的出现。在语言建模上的实验结果表明，在扩大模型尺寸和训练 tokens 的各种设置中，Diff Transformer 的性能优于 Transformer。更令人感兴趣的是，它在实际应用中提供了显著的优势，例如长上下文建模、关键信息检索、幻觉缓解、上下文学习和激活异常值的减少。通过减少对不相关上下文的分心，Diff Transformer 可以减轻问答和文本摘要中的幻觉。对于上下文学习，Diff Transformer 不仅提高了准确性，而且对顺序置换也更鲁棒，这被认为是长期的鲁棒性问题。结果表明，Diff Transformer 是一种高效且有前途的架构，可以推进大型语言模型的发展。

使用提示

此模型的超参数与 Llama 模型相同。

DiffLlamaConfig

class transformers.DiffLlamaConfig

< source >

( vocab_size = 32000 hidden_size = 2048 intermediate_size = 8192 num_hidden_layers = 16 num_attention_heads = 32 num_key_value_heads = None hidden_act = 'silu' max_position_embeddings = 2048 initializer_range = 0.02 rms_norm_eps = 1e-05 use_cache = True pad_token_id = None bos_token_id = 1 eos_token_id = 2 tie_word_embeddings = False rope_theta = 10000.0 rope_scaling = None attention_bias = False attention_dropout = 0.0 lambda_std_dev = 0.1 head_dim = None **kwargs )

参数

vocab_size (int, 可选, 默认为 32000) — DiffLlama 模型的词汇表大小。定义了在调用 DiffLlamaModel 时传递的 inputs_ids 可以表示的不同 tokens 的数量。
hidden_size (int, 可选, 默认为 2048) — 隐藏层表示的维度。
intermediate_size (int, 可选, 默认为 8192) — MLP 表示的维度。
num_hidden_layers (int, 可选, 默认为 16) — Transformer 解码器中隐藏层的数量。
num_attention_heads (int, 可选, 默认为 32) — Transformer 解码器中每个注意力层的注意力头数。
num_key_value_heads (int, 可选) — 这是应该用于实现分组查询注意力（Grouped Query Attention）的 key_value 头的数量。如果 num_key_value_heads=num_attention_heads，模型将使用多头注意力（Multi Head Attention, MHA）；如果 num_key_value_heads=1，模型将使用多查询注意力（Multi Query Attention, MQA）；否则，将使用 GQA。当将多头检查点转换为 GQA 检查点时，每个组 key 和 value 头应通过平均池化该组内的所有原始头来构建。有关更多详细信息，请查看这篇论文。如果未指定，则默认为 num_attention_heads。
hidden_act (str 或 function, 可选, 默认为 "silu") — 解码器中的非线性激活函数（函数或字符串）。
max_position_embeddings (int, 可选, 默认为 2048) — 此模型可能使用的最大序列长度。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
rms_norm_eps (float, 可选, 默认为 1e-05) — rms 归一化层使用的 epsilon 值。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回上次的 key/values 注意力（并非所有模型都使用）。仅当 config.is_decoder=True 时相关。
pad_token_id (int, 可选) — Padding token id。
bos_token_id (int, 可选, 默认为 1) — 流开始 token id。
eos_token_id (int, 可选, 默认为 2) — 流结束 token id。
tie_word_embeddings (bool, 可选, 默认为 False) — 是否绑定词嵌入权重
rope_theta (float, 可选, 默认为 10000.0) — RoPE 嵌入的基础周期。
rope_scaling (Dict, 可选) — 包含 RoPE 嵌入的缩放配置的字典。注意：如果您应用新的 rope 类型，并期望模型在更长的 max_position_embeddings 上工作，我们建议您相应地更新此值。预期内容：rope_type (str)：要使用的 RoPE 的子变体。可以是 [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘diffllama3’] 之一，其中 ‘default’ 是原始 RoPE 实现。factor (float, 可选)：与除 ‘default’ 之外的所有 rope 类型一起使用。应用于 RoPE 嵌入的缩放因子。在大多数缩放类型中，x 的 factor 将使模型能够处理长度为 x * 原始最大预训练长度的序列。original_max_position_embeddings (int, 可选)：与 ‘dynamic’、‘longrope’ 和 ‘diffllama3’ 一起使用。预训练期间使用的原始最大位置嵌入。attention_factor (float, 可选)：与 ‘yarn’ 和 ‘longrope’ 一起使用。应用于注意力计算的缩放因子。如果未指定，则默认为实现建议的值，使用 factor 字段推断建议值。beta_fast (float, 可选)：仅与 ‘yarn’ 一起使用。用于在线性斜坡函数中设置外推（仅限）边界的参数。如果未指定，则默认为 32。beta_slow (float, 可选)：仅与 ‘yarn’ 一起使用。用于在线性斜坡函数中设置插值（仅限）边界的参数。如果未指定，则默认为 1。short_factor (List[float], 可选)：仅与 ‘longrope’ 一起使用。应用于短上下文（< original_max_position_embeddings）的缩放因子。必须是数字列表，其长度与隐藏层大小除以注意力头数再除以 2 的长度相同。long_factor (List[float], 可选)：仅与 ‘longrope’ 一起使用。应用于长上下文（< original_max_position_embeddings）的缩放因子。必须是数字列表，其长度与隐藏层大小除以注意力头数再除以 2 的长度相同。low_freq_factor (float, 可选)：仅与 ‘diffllama3’ 一起使用。应用于 RoPE 低频分量的缩放因子。high_freq_factor (float, 可选)：仅与 ‘diffllama3’ 一起使用。应用于 RoPE 高频分量的缩放因子。
attention_bias (bool, 可选, 默认为 False) — 在自注意力期间，是否在 query、key、value 和输出投影层中使用偏置。
attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。
lambda_std_dev (float, 可选, 默认为 0.1) — 注意力层中参数 lambda 初始化时的标准差。
head_dim (int, 可选) — 注意力头的维度。如果为 None，则默认为 hidden_size // num_heads

这是用于存储 DiffLlamaModel 配置的配置类。它用于根据指定的参数实例化 DiffLlama 模型，定义模型架构。使用默认值实例化配置将产生与 kajuma/DiffLlama-0.3B-handcut 相似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

>>> from transformers import DiffLlamaModel, DiffLlamaConfig

>>> # Initializing a DiffLlama diffllama-7b style configuration
>>> configuration = DiffLlamaConfig()

>>> # Initializing a model from the diffllama-7b style configuration
>>> model = DiffLlamaModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

DiffLlamaModel

class transformers.DiffLlamaModel

< source >

( config: DiffLlamaConfig )

参数

config (DiffLlamaConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。
config — DiffLlamaConfig

裸 DiffLlama 模型输出原始隐藏状态，顶部没有任何特定的头部。此模型继承自 PreTrainedModel。查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档以了解与通用用法和行为相关的所有事项。

Transformer 解码器，由 config.num_hidden_layers 层组成。每一层都是一个 DiffLlamaDecoderLayer

前向传播

< source >

( input_ids: LongTensor = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **flash_attn_kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] )

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。如果您提供填充，默认情况下将忽略填充。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示未被掩盖的标记，
- 0 表示被掩盖的标记。
什么是注意力掩码？

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

如果使用 past_key_values，则可以选择仅输入最后一个 input_ids（请参阅 past_key_values）。

如果您想更改填充行为，则应阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需要进行修改。有关默认策略的更多信息，请参见论文中的图 1。
- 1 表示头部未被掩盖，
- 0 表示头部被掩盖。
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 ID？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor))，可选) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的键和值），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，其中每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，则用户可以选择仅输入最后一个 input_ids（那些没有将其过去的键值状态提供给此模型的），形状为 (batch_size, 1)，而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 描述输入序列标记在序列中位置的索引。与 position_ids 相反，此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整序列长度。

DiffLlamaModel 的前向传播方法，覆盖了 __call__ 特殊方法。

尽管前向传播的配方需要在该函数中定义，但应该在之后调用 Module 实例，而不是调用此函数，因为前者负责运行预处理和后处理步骤，而后者会静默地忽略它们。

DiffLlamaForCausalLM

class transformers.DiffLlamaForCausalLM

< source >

( config )

前向传播

< source >

( input_ids: LongTensor = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.List[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs: typing_extensions.Unpack[transformers.models.diffllama.modeling_diffllama.KwargsForCausalLM] ) → transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。如果您提供 padding，默认情况下将被忽略。

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以了解详细信息。

什么是输入 IDs？
attention_mask (torch.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在 padding token 索引上执行 attention 的 Mask。 Mask 值在 [0, 1] 中选择：
- 1 表示 tokens 未被 mask，
- 0 表示 tokens 已被 mask。
什么是 attention masks？

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以了解详细信息。

如果使用 past_key_values，则可以选择仅输入最后的 input_ids（请参阅 past_key_values）。

如果您想更改 padding 行为，您应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需要进行修改。有关默认策略的更多信息，请参阅论文中的图 1。
- 1 表示 head 未被 mask，
- 0 表示 head 已被 mask。
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 位置嵌入中每个输入序列 tokens 的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 IDs？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor))，可选) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的键和值），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv cache 指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，其中每个元组都有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入最后的 input_ids（那些没有将其过去的键值状态提供给此模型的 input_ids），形状为 (batch_size, 1)，而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — （可选）您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更灵活地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并可用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息，请参阅返回的张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的 hidden states。有关更多详细信息，请参阅返回的张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是纯元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 索引，描述输入序列 tokens 在序列中的位置。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新缓存并推断完整序列长度。
labels (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 用于计算 masked language modeling loss 的标签。索引应在 [0, ..., config.vocab_size] 或 -100 中（请参阅 input_ids 文档字符串）。索引设置为 -100 的 tokens 将被忽略（masked），loss 仅针对标签在 [0, ..., config.vocab_size] 中的 tokens 计算。
logits_to_keep (int 或 torch.Tensor，可选) — 如果是 int，则计算最后 logits_to_keep 个 tokens 的 logits。如果为 0，则计算所有 input_ids 的 logits（特殊情况）。只有最后一个 token logits 是生成所需的，并且仅针对该 token 计算它们可以节省内存，这对于长序列或大词汇量大小而言变得非常重要。如果是 torch.Tensor，则必须是 1D，对应于要在序列长度维度中保留的索引。这在使用 packed tensor 格式（批次和序列长度的单个维度）时很有用。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含各种元素，具体取决于配置 (DiffLlamaConfig) 和输入。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 语言建模 loss（用于下一个 token 预测）。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模 head 的预测分数（SoftMax 之前每个词汇表 token 的分数）。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，其中每个元组都有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）

包含预先计算的隐藏状态（自注意力模块中的键和值），可用于加速顺序解码（请参阅 past_key_values 输入）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型具有嵌入层，则为嵌入输出提供一个，+ 每个层的输出提供一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出以及可选的初始嵌入输出处的 hidden-states。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

attention softmax 之后的 Attentions 权重，用于计算自注意力 head 中的加权平均值。

DiffLlamaForCausalLM forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, DiffLlamaForCausalLM

>>> model = DiffLlamaForCausalLM.from_pretrained("google/diffllama-7b")
>>> tokenizer = AutoTokenizer.from_pretrained("google/diffllama-7b")

>>> prompt = "What is your favorite condiment?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"What is your favorite condiment?"

DiffLlamaForSequenceClassification

class transformers.DiffLlamaForSequenceClassification

< source >

( config )

参数

config (DiffLlamaConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

带有序列分类 head（线性层）的 DiffLlama 模型 transformer。

DiffLlamaForSequenceClassification 使用最后一个 token 来进行分类，就像其他因果模型（例如 GPT-2）一样。

由于它在最后一个 token 上进行分类，因此需要知道最后一个 token 的位置。如果在配置中定义了 pad_token_id，它会在每行中找到最后一个不是 padding token 的 token。如果未定义 pad_token_id，它只会在批次的每行中获取最后一个值。由于当传递 inputs_embeds 而不是 input_ids 时，它无法猜测 padding tokens，因此它执行相同的操作（在批次的每行中获取最后一个值）。

此模型继承自 PreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档以了解与通用用法和行为相关的所有事项。

前向传播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.List[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None )

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。如果您提供 padding，默认情况下将被忽略。

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以了解详细信息。

什么是输入 IDs？
attention_mask (torch.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在 padding token 索引上执行 attention 的 Mask。 Mask 值在 [0, 1] 中选择：
- 1 表示 tokens 未被 mask，
- 0 表示 tokens 已被 mask。
什么是 attention masks？

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以了解详细信息。

如果使用 past_key_values，则可以选择仅输入最后的 input_ids（请参阅 past_key_values）。

如果您想更改 padding 行为，您应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需要进行修改。有关默认策略的更多信息，请参阅论文中的图 1。
- 1 表示 head 未被 mask，
- 0 表示 head 已被 mask。
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 位置嵌入中每个输入序列 tokens 的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 IDs？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor))，可选) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的键和值），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv cache 指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，其中每个元组都有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入最后的 input_ids（那些没有将其过去的键值状态提供给此模型的 input_ids），形状为 (batch_size, 1)，而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — （可选）您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更灵活地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并可用于加速解码（请参阅 past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。详见返回张量下的 attentions 部分了解更多详情。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。详见返回张量下的 hidden_states 部分了解更多详情。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是纯粹的元组。
cache_position (torch.LongTensor of shape (sequence_length), optional) — 索引，描述输入序列 token 在序列中的位置。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新缓存，并推断完整序列的长度。
labels (torch.LongTensor of shape (batch_size,), optional) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1，则计算回归损失 (均方误差损失)。如果 config.num_labels > 1，则计算分类损失 (交叉熵损失)。

The DiffLlamaForSequenceClassification forward 方法，覆盖了 __call__ 特殊方法。

DiffLlamaForQuestionAnswering

class transformers.DiffLlamaForQuestionAnswering

< source >

( config )

参数

config (DiffLlamaConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法加载模型权重。

带有跨度分类头的 DiffLlama 模型 Transformer，用于抽取式问答任务，如 SQuAD (隐藏状态输出之上的线性层，用于计算 span start logits 和 span end logits)。

此模型继承自 PreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档以了解与通用用法和行为相关的所有事项。

前向传播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.List[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None start_positions: typing.Optional[torch.LongTensor] = None end_positions: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs )

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。如果您提供 padding，默认情况下将被忽略。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 IDs？
attention_mask (torch.Tensor of shape (batch_size, sequence_length), optional) — 用于避免在 padding token 索引上执行注意力的掩码。在 [0, 1] 中选择掩码值：
- 1 表示 tokens 未被掩蔽，
- 0 表示 tokens 已被掩蔽。
什么是注意力掩码？

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

如果使用 past_key_values，则可以选择仅输入最后的 input_ids (请参阅 past_key_values)。

如果您想更改 padding 行为，您应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需求进行修改。有关默认策略的更多信息，请参阅论文中的图 1。
- 1 表示 head 未被掩蔽，
- 0 表示 head 已被掩蔽。
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列 tokens 在位置嵌入中的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 IDs？
past_key_values (Cache or tuple(tuple(torch.FloatTensor)), optional) — 预先计算的隐藏状态（自注意力模块和交叉注意力模块中的键和值），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(tuple(torch.FloatTensor)) 元组，每个元组有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入最后的 input_ids（那些没有将其 past key value 状态提供给此模型的），形状为 (batch_size, 1) 而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。
use_cache (bool, optional) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。详见返回张量下的 attentions 部分了解更多详情。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。详见返回张量下的 hidden_states 部分了解更多详情。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是纯粹的元组。
cache_position (torch.LongTensor of shape (sequence_length), optional) — 索引，描述输入序列 tokens 在序列中的位置。与 position_ids 相反，此张量不受 padding 的影响。它用于在正确的位置更新缓存，并推断完整序列的长度。
start_positions (torch.LongTensor of shape (batch_size,), optional) — 用于计算 token 分类损失的已标注跨度开始位置（索引）的标签。位置被限制在序列的长度 (sequence_length) 内。序列之外的位置不计入损失计算。
end_positions (torch.LongTensor of shape (batch_size,), optional) — 用于计算 token 分类损失的已标注跨度结束位置（索引）的标签。位置被限制在序列的长度 (sequence_length) 内。序列之外的位置不计入损失计算。

The DiffLlamaForQuestionAnswering forward 方法，覆盖了 __call__ 特殊方法。

DiffLlamaForTokenClassification

class transformers.DiffLlamaForTokenClassification

< source >

( config )

参数

config (DiffLlamaConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法加载模型权重。

带有 token 分类头的 DiffLlama 模型 Transformer（隐藏状态输出之上的线性层），例如用于命名实体识别 (NER) 任务。

此模型继承自 PreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档以了解与通用用法和行为相关的所有事项。

前向传播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[typing.List[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。如果您提供填充，默认情况下将忽略填充。

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 获取详细信息。

什么是输入 IDs？
attention_mask (torch.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在 padding token 索引上执行 attention 的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 tokens 未被掩盖，
- 0 表示 tokens 被掩盖。
什么是 attention masks？

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 获取详细信息。

如果使用了 past_key_values，则可以选择仅输入最后的 input_ids （请参阅 past_key_values）。

如果您想更改填充行为，您应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需求进行修改。有关默认策略的更多信息，请参见论文中的图 1。
- 1 表示 head 未被掩盖，
- 0 表示 head 被掩盖。
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 位置嵌入中每个输入序列 tokens 的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 IDs？
past_key_values (Cache 或 tuple(tuple(torch.FloatTensor))，可选) — 预先计算的 hidden-states（self-attention 模块和 cross-attention 模块中的 key 和 values），可用于加速顺序解码。这通常包含模型在先前解码阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv cache 指南；
- 长度为 config.n_layers 的 tuple(tuple(torch.FloatTensor)) 元组，每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为传统缓存格式。
模型将输出与作为输入馈送的缓存格式相同的格式。如果未传递 past_key_values，则将返回传统缓存格式。

如果使用 past_key_values，用户可以选择仅输入最后的 input_ids (那些没有将其过去的 key value 状态提供给此模型的) 形状为 (batch_size, 1) 而不是所有形状为 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 或者，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您想要比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息，请参见返回的张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的 hidden states。有关更多详细信息，请参见返回的张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 描述输入序列 tokens 在序列中位置的索引。与 position_ids 相反，此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整的序列长度。
labels (torch.LongTensor，形状为 (batch_size,)，可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1，则计算回归损失（均方误差损失）。如果 config.num_labels > 1，则计算分类损失（交叉熵损失）。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包括各种元素，具体取决于配置 (DiffLlamaConfig) 和输入。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 分类损失。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.num_labels)) — 分类得分（在 SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型具有嵌入层，则为嵌入输出提供一个，+ 每个层的输出提供一个），形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出以及可选的初始嵌入输出处的 hidden-states。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

attention softmax 之后的 Attentions 权重，用于计算自注意力 head 中的加权平均值。

DiffLlamaForTokenClassification forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, DiffLlamaForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("kajuma/DiffLlama-0.3B-handcut")
>>> model = DiffLlamaForTokenClassification.from_pretrained("kajuma/DiffLlama-0.3B-handcut")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss

< > 在 GitHub 上更新

←DialoGPT DistilBERT→