Transformers 文档

Persimmon

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Persimmon

概述

Persimmon 模型由 ADEPT 创建，由 Erich Elsen、Augustus Odena、Maxwell Nye、Sağnak Taşırlar、Tri Dao、Curtis Hawthorne、Deepak Moparthi、Arushi Somani 撰写。

作者介绍了 Persimmon-8B，一个基于经典 transformer 架构的解码器模型，具有查询和键归一化。Persimmon-8B 是一个完全许可的模型，拥有大约 80 亿个参数，在 Apache 许可证下发布。Persimmon-8B 的一些关键属性包括长上下文大小 (16K)、性能和多模态扩展能力。

作者展示了他们模型评估的方法，重点关注实际文本生成，模拟用户如何与语言模型交互。这项工作还包括一项比较分析，将 Persimmon-8B 与其他突出模型（MPT 7B Instruct 和 Llama 2 Base 7B 1-Shot）在各种评估任务中进行对比。结果表明，即使在有限的训练数据下，Persimmon-8B 也表现出具有竞争力的性能。

在模型细节方面，这项工作概述了 Persimmon-8B 的架构和训练方法，提供了对其设计选择、序列长度和数据集组成的见解。作者提出了一种快速推理代码，通过运算符融合和 CUDA 图利用率优于传统实现，同时保持代码连贯性。他们表达了对社区如何利用这一贡献推动创新的期待，并暗示将作为正在进行的一系列开发的一部分，推出进一步的后续版本。

此模型由 ArthurZ 贡献。原始代码可在此处找到。

使用技巧

Persimmon 模型使用 bfloat16 训练，但原始推理使用 float16。Hub 上传的检查点使用 torch_dtype = 'float16'，AutoModel API 将使用它将检查点从 torch.float32 转换为 torch.float16。

在线权重的 dtype 大多无关紧要，除非您在使用 model = AutoModelForCausalLM.from_pretrained("path", torch_dtype = "auto") 初始化模型时使用 torch_dtype="auto"。原因是模型会首先下载（使用在线检查点的 dtype），然后会将其转换为 torch 的默认 dtype（变为 torch.float32）。用户应指定他们想要的 torch_dtype，如果未指定，它将是 torch.float32。

不建议使用 float16 微调模型，已知这会产生 nan，因此模型应使用 bfloat16 进行微调。

技巧

要转换模型，您需要使用 git clone https://github.com/persimmon-ai-labs/adept-inference 克隆原始存储库，然后获取检查点

git clone https://github.com/persimmon-ai-labs/adept-inference
wget https://axtkn4xl5cip.objectstorage.us-phoenix-1.oci.customer-oci.com/n/axtkn4xl5cip/b/adept-public-data/o/8b_base_model_release.tar
tar -xvf 8b_base_model_release.tar
python src/transformers/models/persimmon/convert_persimmon_weights_to_hf.py  --input_dir /path/to/downloaded/persimmon/weights/ --output_dir /output/path \
    --pt_model_path /path/to/8b_chat_model_release/iter_0001251/mp_rank_00/model_optim_rng.pt
    --ada_lib_path /path/to/adept-inference

对于聊天模型

wget https://axtkn4xl5cip.objectstorage.us-phoenix-1.oci.customer-oci.com/n/axtkn4xl5cip/b/adept-public-data/o/8b_chat_model_release.tar
tar -xvf 8b_base_model_release.tar

此后，模型可以通过以下方式加载：

from transformers import PersimmonForCausalLM, PersimmonTokenizer

model = PersimmonForCausalLM.from_pretrained("/output/path")
tokenizer = PersimmonTokenizer.from_pretrained("/output/path")

Persimmon 使用基于 sentencepiece 的分词器，带有 Unigram 模型。它支持字节回退，这仅在 tokenizers==0.14.0 中适用于快速分词器。使用 LlamaTokenizer 是因为它是一个围绕 sentencepiece 的标准包装器。聊天模板将在后续的 PR 中使用模板函数进行更新！
作者建议在聊天模式下使用以下提示格式：f"human: {prompt}\n\nadept:"

PersimmonConfig

class transformers.PersimmonConfig

< 来源 >

( vocab_size = 262144 hidden_size = 4096 intermediate_size = 16384 num_hidden_layers = 36 num_attention_heads = 64 hidden_act = 'relu2' max_position_embeddings = 16384 initializer_range = 0.02 layer_norm_eps = 1e-05 use_cache = True tie_word_embeddings = False rope_theta = 25000.0 rope_scaling = None qk_layernorm = True hidden_dropout = 0.0 attention_dropout = 0.0 partial_rotary_factor = 0.5 pad_token_id = None bos_token_id = 1 eos_token_id = 2 **kwargs )

参数

vocab_size (int, 可选, 默认为 262144) — Persimmon 模型的词汇表大小。定义了调用 PersimmonModel 时可以通过 inputs_ids 表示的不同 token 的数量。
hidden_size (int, 可选, 默认为 4096) — 隐藏表示的维度。
intermediate_size (int, 可选, 默认为 16384) — MLP 表示的维度。
num_hidden_layers (int, 可选, 默认为 36) — Transformer 编码器中的隐藏层数量。
num_attention_heads (int, 可选, 默认为 64) — Transformer 编码器中每个注意力层的注意力头数量。
hidden_act (str 或 function, 可选, 默认为 "relu2") — 解码器中的非线性激活函数（函数或字符串）。
max_position_embeddings (int, 可选, 默认为 16384) — 此模型可能使用的最大序列长度。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
layer_norm_eps (float, 可选, 默认为 1e-5) — RMS 归一化层使用的 epsilon。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。仅在 config.is_decoder=True 时相关。
tie_word_embeddings(bool, 可选, 默认为 False) — 是否绑定词嵌入。
rope_theta (float, 可选, 默认为 25000.0) — RoPE 嵌入的基础周期。
rope_scaling (Dict, 可选) — 包含 RoPE 嵌入缩放配置的字典。注意：如果您应用新的 RoPE 类型并期望模型在更长的 max_position_embeddings 上工作，我们建议您相应地更新此值。预期内容：rope_type (str)：要使用的 RoPE 子变体。可以是 ['default', 'linear', 'dynamic', 'yarn', 'longrope', 'llama3'] 中的一个，其中 'default' 是原始 RoPE 实现。factor (float, 可选)：与除 'default' 之外的所有 RoPE 类型一起使用。应用于 RoPE 嵌入的缩放因子。在大多数缩放类型中，x 的 factor 将使模型能够处理长度为 x * 原始最大预训练长度的序列。original_max_position_embeddings (int, 可选)：与 'dynamic'、'longrope' 和 'llama3' 一起使用。预训练期间使用的原始最大位置嵌入。attention_factor (float, 可选)：与 'yarn' 和 'longrope' 一起使用。应用于注意力计算的缩放因子。如果未指定，它将默认为实现建议的值，使用 factor 字段推断建议值。beta_fast (float, 可选)：仅与 'yarn' 一起使用。用于在线性斜坡函数中设置外推（仅）边界的参数。如果未指定，它将默认为 32。beta_slow (float, 可选)：仅与 'yarn' 一起使用。用于在线性斜坡函数中设置插值（仅）边界的参数。如果未指定，它将默认为 1。short_factor (list[float], 可选)：仅与 'longrope' 一起使用。应用于短上下文 (< original_max_position_embeddings) 的缩放因子。必须是长度与隐藏大小除以注意力头数量再除以 2 相同的数字列表。long_factor (list[float], 可选)：仅与 'longrope' 一起使用。应用于长上下文 (< original_max_position_embeddings) 的缩放因子。必须是长度与隐藏大小除以注意力头数量再除以 2 相同的数字列表。low_freq_factor (float, 可选)：仅与 'llama3' 一起使用。应用于 RoPE 低频分量的缩放因子。high_freq_factor (float, 可选)：仅与 'llama3' 一起使用。应用于 RoPE 高频分量的缩放因子。
qk_layernorm (bool, 可选, 默认为 True) — 在投影隐藏状态后是否对查询和键进行归一化。
hidden_dropout (float, 可选, 默认为 0.0) — 在将 MLP 应用于隐藏状态后的 dropout 比率。
attention_dropout (float, 可选, 默认为 0.0) — 计算注意力分数后的 dropout 比率。
partial_rotary_factor (float, 可选, 默认为 0.5) — 将进行旋转嵌入的查询和键的百分比。
示例 —

这是一个配置类，用于存储 PersimmonModel 的配置。它用于根据指定的参数实例化一个 Persimmon 模型，定义模型架构。使用默认值实例化配置将生成与 adept/persimmon-8b-base 类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

>>> from transformers import PersimmonModel, PersimmonConfig

>>> # Initializing a Persimmon persimmon-7b style configuration
>>> configuration = PersimmonConfig()

PersimmonModel

class transformers.PersimmonModel

< source >

( config: PersimmonConfig )

参数

config (PersimmonConfig) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只加载配置。请查阅 from_pretrained() 方法以加载模型权重。

裸的 Persimmon 模型，输出原始隐藏状态，顶部没有任何特定头部。

此模型继承自 PreTrainedModel。请查阅超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以了解与一般用法和行为相关的所有事项。

前向传播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] ) → transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (形状为 (batch_size, sequence_length) 的 torch.Tensor, 可选) — 避免对填充 token 索引执行注意力的掩码。掩码值选择范围为 [0, 1]：
- 1 表示**未被掩码**的 token，
- 0 表示**被掩码**的 token。
什么是注意力掩码？
position_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 每个输入序列 token 在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
past_key_values (list[torch.FloatTensor], 可选) — 预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速序列解码。这通常包括模型在解码前期返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv cache 指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为旧版缓存格式。
模型将输出与输入相同的缓存格式。如果未传递 past_key_values，将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入形状为 (batch_size, 1) 的最后 input_ids（那些没有将其过去的键值状态提供给此模型的 token），而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 input_ids。如果你想对如何将 input_ids 索引转换为相关向量拥有比模型内部嵌入查找矩阵更多的控制权，这将很有用。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
cache_position (形状为 (sequence_length) 的 torch.LongTensor, 可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 不同，此张量不受填充影响。它用于在正确位置更新缓存并推断完整序列长度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPast 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含根据配置 (PersimmonConfig) 和输入的不同元素。

last_hidden_state (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。

如果使用了 past_key_values，则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。
past_key_values (Cache, 可选, 当 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块中的键和值，如果 config.is_encoder_decoder=True，则可选地包含交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速序列解码。
hidden_states (tuple(torch.FloatTensor), 可选, 当 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，如果模型有嵌入层，再加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

PersimmonModel 的前向传播方法，覆盖了 __call__ 特殊方法。

虽然前向传播的方案需要在函数内部定义，但之后应该调用 Module 实例而不是此函数，因为前者负责运行预处理和后处理步骤，而后者则默默地忽略它们。

PersimmonForCausalLM

class transformers.PersimmonForCausalLM

< source >

( config )

前向传播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs ) → transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (形状为 (batch_size, sequence_length) 的 torch.Tensor, 可选) — 避免对填充 token 索引执行注意力的掩码。掩码值选择范围为 [0, 1]：
- 1 表示**未被掩码**的 token，
- 0 表示**被掩码**的 token。
什么是注意力掩码？
position_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 每个输入序列 token 在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
past_key_values (list[torch.FloatTensor], 可选) — 预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速序列解码。这通常包括模型在解码前期返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为旧版缓存格式。
模型将输出与输入相同的缓存格式。如果未传递 past_key_values，将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入形状为 (batch_size, 1) 的最后 input_ids（那些没有将其过去的键值状态提供给此模型的 token），而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 input_ids。如果你想对如何将 input_ids 索引转换为相关向量拥有比模型内部嵌入查找矩阵更多的控制权，这将很有用。
labels (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 用于计算掩码语言模型损失的标签。索引应在 [0, ..., config.vocab_size] 或 -100 之间（参见 input_ids 文档字符串）。索引设置为 -100 的 token 将被忽略（掩码），损失仅针对标签在 [0, ..., config.vocab_size] 范围内的 token 计算。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
cache_position (形状为 (sequence_length) 的 torch.LongTensor, 可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 不同，此张量不受填充影响。它用于在正确位置更新缓存并推断完整序列长度。
logits_to_keep (Union[int, torch.Tensor], 默认为 0) — 如果为 int，则计算最后 logits_to_keep 个 token 的 logits。如果为 0，则计算所有 input_ids 的 logits（特殊情况）。生成时只需要最后一个 token 的 logits，只计算该 token 可以节省内存，这对于长序列或大词汇表大小来说非常重要。如果为 torch.Tensor，则必须是与序列长度维度中要保留的索引对应的 1D 张量。这在使用打包张量格式（批次和序列长度的单一维度）时很有用。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含根据配置 (PersimmonConfig) 和输入的不同元素。

loss (torch.FloatTensor 形状为 (1,)，可选，当提供 labels 时返回) — 语言建模损失（用于下一个 token 预测）。
logits (形状为 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 语言建模头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
past_key_values (Cache, 可选, 当 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预计算的隐藏状态（自注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor), 可选, 当 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，如果模型有嵌入层，再加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

PersimmonForCausalLM 的前向传播方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, PersimmonForCausalLM

>>> model = PersimmonForCausalLM.from_pretrained("adept/persimmon-8b-base")
>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")

>>> prompt = "human: Hey, what should I eat for dinner?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
'human: Hey, what should I eat for dinner?\n\ncat: 🐱\n\nhuman: 😐\n\n'

PersimmonForSequenceClassification

class transformers.PersimmonForSequenceClassification

< source >

( config )

参数

config (PersimmonForSequenceClassification) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只加载配置。请查阅 from_pretrained() 方法以加载模型权重。

带有序列分类头（线性层）的 Persimmon 转换器。

PersimmonForSequenceClassification 与其他因果模型（如 GPT-2）一样，使用最后一个 token 进行分类。

由于它对最后一个 token 进行分类，因此需要知道最后一个 token 的位置。如果在配置中定义了 pad_token_id，它会在每一行中找到不是填充 token 的最后一个 token。如果没有定义 pad_token_id，它只是简单地取批次中每一行的最后一个值。由于当传递 inputs_embeds 而不是 input_ids 时它无法猜测填充 token，因此它执行相同的操作（取批次中每一行的最后一个值）。

此模型继承自 PreTrainedModel。请查阅超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以了解与一般用法和行为相关的所有事项。

前向传播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (形状为 (batch_size, sequence_length) 的 torch.Tensor, 可选) — 避免对填充 token 索引执行注意力的掩码。掩码值选择范围为 [0, 1]：
- 1 表示**未被掩码**的 token，
- 0 表示**被掩码**的 token。
什么是注意力掩码？
position_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor, 可选) — 每个输入序列 token 在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
past_key_values (~cache_utils.Cache, 可选) — 预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速序列解码。这通常包括模型在解码前期返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为旧版缓存格式。
模型将输出与输入相同的缓存格式。如果未传递 past_key_values，将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入形状为 (batch_size, 1) 的最后 input_ids（那些没有将其过去的键值状态提供给此模型的 token），而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 input_ids。如果你想对如何将 input_ids 索引转换为相关向量拥有比模型内部嵌入查找矩阵更多的控制权，这将很有用。
labels (形状为 (batch_size,) 的 torch.LongTensor, 可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 之间。如果 config.num_labels == 1，则计算回归损失（均方损失），如果 config.num_labels > 1，则计算分类损失（交叉熵）。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的 hidden_states。

transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.SequenceClassifierOutputWithPast 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False 时），其中包含根据配置（PersimmonConfig）和输入而变化的各种元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 分类损失（如果 config.num_labels==1，则为回归损失）。
logits (形状为 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分类（如果 config.num_labels==1，则为回归）分数（SoftMax 之前）。
past_key_values (Cache, 可选, 当 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预计算的隐藏状态（自注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor), 可选, 当 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，如果模型有嵌入层，再加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

PersimmonForSequenceClassification 的 forward 方法，覆盖了 __call__ 特殊方法。

单标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, PersimmonForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")
>>> model = PersimmonForSequenceClassification.from_pretrained("adept/persimmon-8b-base")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = PersimmonForSequenceClassification.from_pretrained("adept/persimmon-8b-base", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, PersimmonForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")
>>> model = PersimmonForSequenceClassification.from_pretrained("adept/persimmon-8b-base", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = PersimmonForSequenceClassification.from_pretrained(
...     "adept/persimmon-8b-base", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

PersimmonForTokenClassification

class transformers.PersimmonForTokenClassification

< 来源 >

( config )

参数

config (PersimmonForTokenClassification) — 模型的配置类，包含模型的所有参数。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查阅 from_pretrained() 方法来加载模型权重。

Persimmon Transformer 模型，顶部带有 Token 分类头（隐藏状态输出顶部的一个线性层），例如用于命名实体识别 (NER) 任务。

此模型继承自 PreTrainedModel。请查阅超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以了解与一般用法和行为相关的所有事项。

前向传播

< 来源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor 形状为 (batch_size, sequence_length), 可选) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.Tensor 形状为 (batch_size, sequence_length), 可选) — 避免对填充 token 索引执行注意力操作的掩码。掩码值选择范围为 [0, 1]：
- 1 表示未被掩码的 token，
- 0 表示被掩码的 token。
什么是注意力掩码？
position_ids (torch.LongTensor 形状为 (batch_size, sequence_length), 可选) — 每个输入序列 token 在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
past_key_values (~cache_utils.Cache, 可选) — 预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码。这通常包括模型在解码上一阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- 一个 Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为旧版缓存格式。
模型将输出与作为输入馈入的缓存格式相同的缓存格式。如果没有传入 past_key_values，将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入最后一个 input_ids（那些没有将其过去的键值状态提供给此模型的）形状为 (batch_size, 1)，而不是所有 input_ids 形状为 (batch_size, sequence_length)。
inputs_embeds (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size), 可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望对 input_ids 索引如何转换为相关向量有比模型内部嵌入查找矩阵更多的控制，这将很有用。
labels (torch.LongTensor 形状为 (batch_size,), 可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失），如果 config.num_labels > 1，则计算分类损失（交叉熵）。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（请参阅 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的 hidden_states。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False 时），其中包含根据配置（PersimmonConfig）和输入而变化的各种元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 分类损失。
logits (形状为 (batch_size, sequence_length, config.num_labels) 的 torch.FloatTensor) — 分类分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可选, 当 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，如果模型有嵌入层，再加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

PersimmonForTokenClassification 的 forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, PersimmonForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")
>>> model = PersimmonForTokenClassification.from_pretrained("adept/persimmon-8b-base")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
...

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

< > 在 GitHub 上更新

←PEGASUS-X Phi→