Transformers 文档

RWKV

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的权限

开始使用

RWKV

概述

RWKV 模型是在 这个仓库 中提出的。

它建议对传统的 Transformer 注意力机制进行调整,使其成为线性机制。这样,该模型就可以用作循环网络:将时间戳 0 和时间戳 1 的输入一起传递与先传递时间戳 0 的输入,然后传递时间戳 1 的输入以及时间戳 0 的状态相同(请参见下面的示例)。

这比常规 Transformer 更高效,并且可以处理任意长度的句子(即使模型使用固定的上下文长度进行训练)。

此模型由 sgugger 贡献。原始代码可以在这里找到 这里

用法示例

import torch
from transformers import AutoTokenizer, RwkvConfig, RwkvModel

model = RwkvModel.from_pretrained("sgugger/rwkv-430M-pile")
tokenizer = AutoTokenizer.from_pretrained("sgugger/rwkv-430M-pile")

inputs = tokenizer("This is an example.", return_tensors="pt")
# Feed everything to the model
outputs = model(inputs["input_ids"])
output_whole = outputs.last_hidden_state

outputs = model(inputs["input_ids"][:, :2])
output_one = outputs.last_hidden_state

# Using the state computed on the first inputs, we will get the same output
outputs = model(inputs["input_ids"][:, 2:], state=outputs.state)
output_two = outputs.last_hidden_state

torch.allclose(torch.cat([output_one, output_two], dim=1), output_whole, atol=1e-5)

如果您想确保模型在检测到 '\n\n' 时停止生成,我们建议使用以下停止条件

from transformers import StoppingCriteria

class RwkvStoppingCriteria(StoppingCriteria):
    def __init__(self, eos_sequence = [187,187], eos_token_id = 537):
        self.eos_sequence = eos_sequence
        self.eos_token_id = eos_token_id

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        last_2_ids = input_ids[:,-2:].tolist()
        return self.eos_sequence in last_2_ids


output = model.generate(inputs["input_ids"], max_new_tokens=64, stopping_criteria = [RwkvStoppingCriteria()])

RwkvConfig

transformers.RwkvConfig

< >

( vocab_size = 50277 context_length = 1024 hidden_size = 4096 num_hidden_layers = 32 attention_hidden_size = None intermediate_size = None layer_norm_epsilon = 1e-05 bos_token_id = 0 eos_token_id = 0 rescale_every = 6 tie_word_embeddings = False use_cache = True **kwargs )

参数

  • vocab_size (int, 可选, 默认为 50277) — RWKV 模型的词汇表大小。定义了在调用 RwkvModel 时传递的 inputs_ids 可以表示的不同标记的数量。
  • context_length (int, 可选, 默认为 1024) — 此模型可在单个前向传递中使用的最大序列长度(在 RNN 模式下使用它可以使用任何序列长度)。
  • hidden_size (int, 可选, 默认为 4096) — 嵌入和隐藏状态的维度。
  • num_hidden_layers (int, 可选, 默认为 32) — 模型中隐藏层的数量。
  • attention_hidden_size (int, 可选) — 注意力隐藏状态的维度。如果未设置,将默认为 hidden_size
  • intermediate_size (int, 可选) — 内部前馈层的维度。如果未设置,将默认为 hidden_size 的 4 倍。
  • layer_norm_epsilon (float, 可选, 默认为 1e-05) — 层归一化层中使用的 epsilon。
  • bos_token_id (int, 可选, 默认为 0) — 词汇表中句首标记的 ID。默认为 0,因为 RWKV 使用与 GPTNeoX 相同的标记器。
  • eos_token_id (int可选,默认为 0) — 词汇表中句子结束标记的 ID。默认为 0,因为 RWKV 使用与 GPTNeoX 相同的分词器。
  • rescale_every (int可选,默认为 6) — 在推理时,隐藏状态(以及相应输出层的权重)每隔 rescale_every 层除以 2。如果设置为 0 或负数,则不进行重新缩放。
  • tie_word_embeddings (bool可选,默认为 False) — 是否将词嵌入与输入标记嵌入绑定。
  • use_cache (bool可选,默认为 True) — 模型是否应返回最后的状态。

这是用于存储 RwkvModel 配置的配置类。它用于根据指定的参数实例化 RWKV 模型,定义模型架构。使用默认值实例化配置将产生与 RWVK-4 RWKV/rwkv-4-169m-pile 架构类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例

>>> from transformers import RwkvConfig, RwkvModel

>>> # Initializing a Rwkv configuration
>>> configuration = RwkvConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = RwkvModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

RwkvModel

class transformers.RwkvModel

< >

( config )

参数

  • config (RwkvConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。

基本的 RWKV 模型 Transformer,输出原始隐藏状态,顶部没有任何特定的头部。

此模型继承自 PreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。

此模型也是 PyTorch 的 torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档了解有关一般用法和行为的所有内容。

前向传播

< >

( input_ids: Optional = None attention_mask: Optional = None inputs_embeds: Optional = None state: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) transformers.models.rwkv.modeling_rwkv.RwkvOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor 形状为 (batch_size, input_ids_length)) — input_ids_length = sequence_length 如果 past_key_valuesNone 否则 past_key_values[0][0].shape[-2] (输入过去键值状态的 sequence_length)。词汇表中输入序列标记的索引。

    如果使用 past_key_values,则只有尚未计算过去的 input_ids 才应作为 input_ids 传递。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • attention_mask (torch.LongTensor 形状为 (batch_size, input_ids_length), 可选) — 掩码以避免对填充标记索引执行注意力。在 [0, 1] 中选择的掩码值:

    • 未屏蔽标记为 1,
    • 屏蔽标记为 0。

    RwkvModel 当前未使用此功能,但将来会支持。

    什么是注意力掩码?

  • inputs_embeds (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size), 可选) — 或者,您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您希望更好地控制如何将 input_ids 索引转换为关联向量,而不是模型的内部嵌入查找矩阵,这将非常有用。
  • state (由五个形状为 (batch_size, hidden_size, num_hidden_layers)torch.FloatTensor 组成的元组, 可选) — 如果传递,则模型在所有块中使用先前的状态(这将提供 input_ids 的输出,如同模型将 state_input_ids + input_ids 添加为上下文一样)。
  • use_cache (bool, 可选) — 如果设置为 True,则返回最后一个状态,并且可以用来快速生成下一个 logits。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。

返回值

transformers.models.rwkv.modeling_rwkv.RwkvOutputtuple(torch.FloatTensor)

一个 transformers.models.rwkv.modeling_rwkv.RwkvOutput 或一个 torch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含根据配置 (RwkvConfig) 和输入的不同元素。

  • last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。

  • state (五个形状为 (batch_size, hidden_size, num_hidden_layers)torch.FloatTensor 的列表) — 模型在最后一个时间步的状态。可以在前向方法中与下一个 input_ids 一起使用,以避免提供旧的 input_ids

  • hidden_states (tuple(torch.FloatTensor), 可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型有嵌入层,则一个用于嵌入的输出 + 一个用于每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    模型在每一层输出的隐藏状态加上可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

RwkvModel 前向方法,覆盖 __call__ 特殊方法。

尽管前向传递的配方需要在此函数中定义,但之后应该调用 Module 实例而不是此实例,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, RwkvModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-4-169m-pile")
>>> model = RwkvModel.from_pretrained("RWKV/rwkv-4-169m-pile")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

RwkvLMHeadModel

transformers.RwkvForCausalLM

< >

( config )

参数

  • config (RwkvConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法来加载模型权重。

RWKV 模型 transformer,顶部带有语言建模头(权重与输入嵌入相关的线性层)。

此模型继承自 PreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。

此模型也是 PyTorch 的 torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档了解有关一般用法和行为的所有内容。

前向传播

< >

( input_ids: Optional = None attention_mask: Optional = None inputs_embeds: Optional = None state: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) transformers.models.rwkv.modeling_rwkv.RwkvCausalLMOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor 形状为 (batch_size, input_ids_length)) — 如果 past_key_valuesNone,则 input_ids_length = sequence_length,否则 input_ids_length = past_key_values[0][0].shape[-2] (输入过去的键值状态的 sequence_length)。 词汇表中输入序列标记的索引。

    如果使用 past_key_values,则只有尚未计算其过去的 input_ids 应该作为 input_ids 传递。

    可以使用 AutoTokenizer 获取索引。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • attention_mask (torch.LongTensor 形状为 (batch_size, input_ids_length), 可选) — 掩码以避免对填充标记索引执行注意力。 在 [0, 1] 中选择的掩码值:

    • 未被掩码的标记为 1,
    • 被掩码的标记为 0。

    RwkvModel 当前不使用此参数,但将来会支持。

    什么是注意力掩码?

  • inputs_embeds (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size), 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递 input_ids。 如果您想比模型的内部嵌入查找矩阵更好地控制如何将 input_ids 索引转换为关联向量,这将非常有用。
  • state (由五个形状为 (batch_size, hidden_size, num_hidden_layers)torch.FloatTensor 组成的元组, 可选) — 如果传递,模型将在所有块中使用先前的状态(这将提供 input_ids 的输出,就像模型将 state_input_ids + input_ids 作为上下文一样)。
  • use_cache (bool, 可选) — 如果设置为 True,则返回最后一个状态,并且可以用来快速生成下一个 logits。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。 有关详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。 有关详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
  • labels (torch.LongTensor 形状为 (batch_size, sequence_length), 可选) — 用于语言建模的标签。 请注意,标签在模型内部是**移位的**,即您可以设置 labels = input_ids[-100, 0, ..., config.vocab_size] 中选择索引。 所有设置为 -100 的标签都将被忽略(屏蔽),损失仅针对 [0, ..., config.vocab_size] 中的标签计算。

返回值

transformers.models.rwkv.modeling_rwkv.RwkvCausalLMOutputtuple(torch.FloatTensor)

一个 transformers.models.rwkv.modeling_rwkv.RwkvCausalLMOutput 或一个 torch.FloatTensor 的元组(如果传入 return_dict=False 或当 config.return_dict=False 时)包含根据配置 (RwkvConfig) 和输入的不同元素。

  • loss (torch.FloatTensor ,形状为 (1,)可选,当提供 labels 时返回) — 语言建模损失(用于下一个词预测)。

  • logits (torch.FloatTensor ,形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前的每个词汇词的分数)。

  • state (五个形状为 (batch_size, hidden_size, num_hidden_layers)torch.FloatTensor 的列表) — 模型在最后一个时间步的状态。可以在前向方法中与下一个 input_ids 一起使用,以避免提供旧的 input_ids

  • hidden_states (tuple(torch.FloatTensor), 可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型有嵌入层,则一个用于嵌入的输出 + 一个用于每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    模型在每一层输出的隐藏状态加上可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

RwkvForCausalLM 的前向方法,覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在此函数中定义,但之后应该调用 Module 实例而不是此实例,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> import torch
>>> from transformers import AutoTokenizer, RwkvForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-4-169m-pile")
>>> model = RwkvForCausalLM.from_pretrained("RWKV/rwkv-4-169m-pile")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

Rwkv 注意力机制和循环公式

在传统的自回归 Transformer 中,注意力机制写成O=softmax(QKT/d)VO = \hbox{softmax}(QK^{T} / \sqrt{d}) V

其中QQ,KKVV是形状为 seq_len x hidden_size 的矩阵,分别称为查询、键和值(它们实际上是更大的矩阵,具有批次维度和注意力头维度,但我们只对最后两个维度感兴趣,即进行矩阵乘积的地方,因此为了简单起见,我们只考虑这两个维度)。积QKTQK^{T}的形状为 seq_len x seq_len,我们可以将其与VV进行矩阵乘积,得到输出OO其形状与其他矩阵相同。

将 softmax 替换为其值,得到Oi=j=1ieQiKjT/dVjj=1ieQiKjT/dO_{i} = \frac{\sum_{j=1}^{i} e^{Q_{i} K_{j}^{T} / \sqrt{d}} V_{j}}{\sum_{j=1}^{i} e^{Q_{i} K_{j}^{T} / \sqrt{d}}}

请注意,以下内容中的条目QKTQK^{T}对应于j>ij > i被屏蔽(总和在 j 处停止),因为注意力不允许查看未来的标记(只能查看过去的标记)。

相比之下,RWKV 注意力由以下公式给出:Oi=σ(Ri)j=1ieWij+KjVjj=1ieWij+KjO_{i} = \sigma(R_{i}) \frac{\sum_{j=1}^{i} e^{W_{i-j} + K_{j}} V_{j}}{\sum_{j=1}^{i} e^{W_{i-j} + K_{j}}}

其中RR是一个新的矩阵,作者称之为“接收度”(receptance),KKVV仍然是键(key)和值(value)(这里的 \(\sigma\) 是 sigmoid 函数)。WW是一个新的向量,表示词元(token)的位置,由以下公式给出:W0=u and Wk=(k1)w for k1W_{0} = u \hbox{ and } W_{k} = (k-1)w \hbox{ for } k \geq 1

其中uuww可学习参数,在代码中分别称为 time_firsttime_decay。分子和分母都可以递归地表示。将它们命名为NiN_{i}DiD_{i}我们有Ni=eu+KiVi+N^i where N^i=eKi1Vi1+ew+Ki2Vi2+e(i2)w+K1V1N_{i} = e^{u + K_{i}} V_{i} + \hat{N}_{i} \hbox{ where } \hat{N}_{i} = e^{K_{i-1}} V_{i-1} + e^{w + K_{i-2}} V_{i-2} \cdots + e^{(i-2)w + K_{1}} V_{1}

所以N^i\hat{N}_{i}(在代码中称为 numerator_state)满足N^0=0 且 N^j+1=eKjVj+ewN^j\hat{N}_{0} = 0 \hbox{ 且 } \hat{N}_{j+1} = e^{K_{j}} V_{j} + e^{w} \hat{N}_{j}

Di=eu+Ki+D^i 其中 D^i=eKi1+ew+Ki2+e(i2)w+K1D_{i} = e^{u + K_{i}} + \hat{D}_{i} \hbox{ where } \hat{D}_{i} = e^{K_{i-1}} + e^{w + K_{i-2}} \cdots + e^{(i-2)w + K_{1}}

所以D^i\hat{D}_{i}(在代码中称为 denominator_state)满足D^0=0 and D^j+1=eKj+ewD^j\hat{D}_{0} = 0 \hbox{ and } \hat{D}_{j+1} = e^{K_{j}} + e^{w} \hat{D}_{j}

实际使用的递归公式稍微复杂一些,因为为了数值稳定性,我们不想计算大数的指数。通常,softmax 不会按原样计算,而是将最大项的指数除以分子和分母。exij=1nexj=exiMj=1nexjM\frac{e^{x_{i}}}{\sum_{j=1}^{n} e^{x_{j}}} = \frac{e^{x_{i} - M}}{\sum_{j=1}^{n} e^{x_{j} - M}}

其中MM所有xjx_{j}的最大值。因此,除了保存分子状态 (\\(\hat{N}\\)) 和分母状态 (\\(\hat{D}\\)) 之外,我们还跟踪指数中遇到的所有项的最大值。所以我们实际上使用N~i=eMiN^i and D~i=eMiD^i\tilde{N}_{i} = e^{-M_{i}} \hat{N}_{i} \hbox{ and } \tilde{D}_{i} = e^{-M_{i}} \hat{D}_{i}

由以下递推公式定义N~0=0 且 N~j+1=eKjqVj+ew+MjqN~j 其中 q=max(Kj,w+Mj)\tilde{N}_{0} = 0 \hbox{ 且 } \tilde{N}_{j+1} = e^{K_{j} - q} V_{j} + e^{w + M_{j} - q} \tilde{N}_{j} \hbox{ 其中 } q = \max(K_{j}, w + M_{j})

D~0=0 and D~j+1=eKjq+ew+MjqD~j where q=max(Kj,w+Mj)\tilde{D}_{0} = 0 \hbox{ and } \tilde{D}_{j+1} = e^{K_{j} - q} + e^{w + M_{j} - q} \tilde{D}_{j} \hbox{ where } q = \max(K_{j}, w + M_{j})

Mj+1=qM_{j+1} = q. 利用以上公式,我们可以计算Ni=eu+KiqVi+eMiN~i 其中 q=max(u+Ki,Mi)N_{i} = e^{u + K_{i} - q} V_{i} + e^{M_{i}} \tilde{N}_{i} \hbox{ 其中 } q = \max(u + K_{i}, M_{i})

Di=eu+Kiq+eMiD~i 其中 q=max(u+Ki,Mi)D_{i} = e^{u + K_{i} - q} + e^{M_{i}} \tilde{D}_{i} \hbox{ 其中 } q = \max(u + K_{i}, M_{i})

最终得到Oi=σ(Ri)NiDiO_{i} = \sigma(R_{i}) \frac{N_{i}}{D_{i}}

< > GitHub 上的更新