Transformers 文档

Mistral

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始

Mistral

概述

Mistral 在这篇博文中被介绍，作者为：Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed。

这篇博文的介绍部分写道

Mistral AI 团队很荣幸发布 Mistral 7B，迄今为止同等规模中最强大的语言模型。

Mistral-7B 是 mistral.ai 发布的第一个大型语言模型 (LLM)。

架构细节

Mistral-7B 是一个仅解码器的 Transformer，具有以下架构选择

滑动窗口注意力 - 使用 8k 上下文长度和固定缓存大小进行训练，理论上的注意力范围为 128K tokens
GQA（分组查询注意力）- 允许更快的推理和更低的缓存大小。
字节回退 BPE 分词器 - 确保字符永远不会映射到词汇表外的 tokens。

更多详情请参考发布博文。

许可证

Mistral-7B 在 Apache 2.0 许可证下发布。

使用技巧

Mistral 团队发布了 3 个检查点

一个基础模型，Mistral-7B-v0.1，它经过预训练，可以在互联网规模的数据上预测下一个 token。
一个指令调优模型，Mistral-7B-Instruct-v0.1，它是为聊天目的优化的基础模型，使用了监督微调 (SFT) 和直接偏好优化 (DPO)。
一个改进的指令调优模型，Mistral-7B-Instruct-v0.2，它在 v1 的基础上进行了改进。

基础模型可以如下使用

>>> from transformers import AutoModelForCausalLM, AutoTokenizer

>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.1", device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")

>>> prompt = "My favourite condiment is"

>>> model_inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
>>> model.to(device)

>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"My favourite condiment is to ..."

指令调优模型可以如下使用

>>> from transformers import AutoModelForCausalLM, AutoTokenizer

>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.2", device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.2")

>>> messages = [
...     {"role": "user", "content": "What is your favourite condiment?"},
...     {"role": "assistant", "content": "Well, I'm quite partial to a good squeeze of fresh lemon juice. It adds just the right amount of zesty flavour to whatever I'm cooking up in the kitchen!"},
...     {"role": "user", "content": "Do you have mayonnaise recipes?"}
... ]

>>> model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda")

>>> generated_ids = model.generate(model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"Mayonnaise can be made as follows: (...)"

可以看到，指令调优模型需要应用一个聊天模板，以确保输入以正确的格式准备。

使用 Flash Attention 加速 Mistral

上面的代码片段展示了没有任何优化技巧的推理。然而，可以通过利用 Flash Attention 显著加速模型，Flash Attention 是模型内部使用的注意力机制的更快实现。

首先，确保安装最新版本的 Flash Attention 2 以包含滑动窗口注意力功能。

pip install -U flash-attn --no-build-isolation

还要确保你的硬件与 Flash-Attention 2 兼容。请阅读 flash attention 仓库的官方文档以了解更多信息。同时，确保以半精度加载你的模型（例如 torch.float16）

要使用 Flash Attention-2 加载和运行模型，请参考下面的代码片段

>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer

>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.1", torch_dtype=torch.float16, attn_implementation="flash_attention_2", device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")

>>> prompt = "My favourite condiment is"

>>> model_inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
>>> model.to(device)

>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"My favourite condiment is to (...)"

预期加速

下面是一个预期加速图表，比较了使用 mistralai/Mistral-7B-v0.1 检查点的 transformers 原生实现和 Flash Attention 2 版本的模型之间的纯推理时间。

滑动窗口注意力

当前的实现支持滑动窗口注意力机制和内存高效的缓存管理。要启用滑动窗口注意力，只需确保你的 flash-attn 版本与滑动窗口注意力兼容（>=2.3.0）。

Flash Attention-2 模型还使用更内存高效的缓存切片机制 - 按照使用滚动缓存机制的 Mistral 模型的官方实现建议，我们将缓存大小固定为 (self.config.sliding_window)，仅支持 padding_side="left" 的批量生成，并使用当前 token 的绝对位置来计算位置嵌入。

使用量化缩小 Mistral 模型

由于 Mistral 模型有 70 亿个参数，以半精度 (float16) 存储需要大约 14GB 的 GPU 内存，因为每个参数占用 2 个字节。但是，可以使用量化来缩小模型的大小。如果模型量化为 4 位（或每个参数半个字节），则只需要大约 3.5GB 的 RAM。

量化模型非常简单，只需将 quantization_config 传递给模型即可。下面，我们将使用 BitsAndyBytes 量化（但请参考此页面了解其他量化方法）

>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

>>> # specify how to quantize the model
>>> quantization_config = BitsAndBytesConfig(
...         load_in_4bit=True,
...         bnb_4bit_quant_type="nf4",
...         bnb_4bit_compute_dtype="torch.float16",
... )

>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.2", quantization_config=True, device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.2")

>>> prompt = "My favourite condiment is"

>>> messages = [
...     {"role": "user", "content": "What is your favourite condiment?"},
...     {"role": "assistant", "content": "Well, I'm quite partial to a good squeeze of fresh lemon juice. It adds just the right amount of zesty flavour to whatever I'm cooking up in the kitchen!"},
...     {"role": "user", "content": "Do you have mayonnaise recipes?"}
... ]

>>> model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda")

>>> generated_ids = model.generate(model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"The expected output"

此模型由 Younes Belkada 和 Arthur Zucker 贡献。原始代码可以在这里找到。

资源

Hugging Face 官方和社区（🌎 表示）资源的列表，帮助你开始使用 Mistral。如果你有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！该资源最好展示一些新的东西，而不是重复现有资源。

文本生成

可以在这里找到一个演示 notebook，用于执行 Mistral-7B 的监督微调 (SFT)。 🌎
一篇关于如何在 2024 年使用 Hugging Face 工具微调 LLM 的博客文章。 🌎
Hugging Face 的 Alignment Handbook 包括使用 Mistral-7B 执行监督微调 (SFT) 和直接偏好优化的脚本和方法。这包括用于完整微调、单 GPU 上的 QLoRa 以及多 GPU 微调的脚本。
因果语言建模任务指南

MistralConfig

class transformers.MistralConfig

< 源代码 >

( vocab_size = 32000 hidden_size = 4096 intermediate_size = 14336 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = 8 head_dim = None hidden_act = 'silu' max_position_embeddings = 131072 initializer_range = 0.02 rms_norm_eps = 1e-06 use_cache = True pad_token_id = None bos_token_id = 1 eos_token_id = 2 tie_word_embeddings = False rope_theta = 10000.0 sliding_window = 4096 attention_dropout = 0.0 **kwargs )

参数

vocab_size (int, 可选, 默认为 32000) — Mistral 模型的词汇表大小。定义了在调用 MistralModel 时传递的 inputs_ids 可以表示的不同 token 的数量
hidden_size (int, 可选, 默认为 4096) — 隐藏层表示的维度。
intermediate_size (int, 可选, 默认为 14336) — MLP 表示的维度。
num_hidden_layers (int, 可选, 默认为 32) — Transformer 编码器中隐藏层的数量。
num_attention_heads (int, 可选, 默认为 32) — Transformer 编码器中每个注意力层的注意力头数。
num_key_value_heads (int, 可选, 默认为 8) — 这是用于实现分组查询注意力 (Grouped Query Attention) 的 key_value 头数。如果 num_key_value_heads=num_attention_heads，模型将使用多头注意力 (Multi Head Attention, MHA)；如果 num_key_value_heads=1，模型将使用多查询注意力 (Multi Query Attention, MQA)；否则使用 GQA。当将多头检查点转换为 GQA 检查点时，每个组的 key 和 value 头应通过平均池化该组内的所有原始头来构建。有关更多详细信息，请查看本文。如果未指定，则默认为 8。
head_dim (int, 可选, 默认为 hidden_size // num_attention_heads) — 注意力头维度。
hidden_act (str 或 function, 可选, 默认为 "silu") — 解码器中的非线性激活函数（函数或字符串）。
max_position_embeddings (int, 可选, 默认为 4096*32) — 此模型可能使用的最大序列长度。 Mistral 的滑动窗口注意力允许最多 4096*32 个 token 的序列。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
rms_norm_eps (float, 可选, 默认为 1e-06) — rms 归一化层使用的 epsilon。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的 key/value 注意力 (并非所有模型都使用)。仅当 config.is_decoder=True 时相关。
pad_token_id (int, 可选) — padding token 的 id。
bos_token_id (int, 可选, 默认为 1) — “beginning-of-sequence” token 的 id。
eos_token_id (int, 可选, 默认为 2) — “end-of-sequence” token 的 id。
tie_word_embeddings (bool, 可选, 默认为 False) — 模型的输入和输出词嵌入是否应绑定。
rope_theta (float, 可选, 默认为 10000.0) — RoPE 嵌入的基础周期。
sliding_window (int, 可选, 默认为 4096) — 滑动窗口注意力窗口大小。如果未指定，则默认为 4096。
attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。

这是用于存储 MistralModel 配置的配置类。它用于根据指定的参数实例化 Mistral 模型，定义模型架构。使用默认值实例化配置将产生与 Mistral-7B-v0.1 或 Mistral-7B-Instruct-v0.1 类似的配置。

mistralai/Mistral-7B-v0.1 mistralai/Mistral-7B-Instruct-v0.1

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

>>> from transformers import MistralModel, MistralConfig

>>> # Initializing a Mistral 7B style configuration
>>> configuration = MistralConfig()

>>> # Initializing a model from the Mistral 7B style configuration
>>> model = MistralModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

Mistral

概述

架构细节

许可证

使用技巧

使用 Flash Attention 加速 Mistral

预期加速

滑动窗口注意力

使用量化缩小 Mistral 模型

资源

MistralConfig

class transformers.MistralConfig

MistralModel

class transformers.MistralModel

forward（前向传播）

MistralForCausalLM

class transformers.MistralForCausalLM

forward（前向传播）

MistralForSequenceClassification

class transformers.MistralForSequenceClassification

forward（前向传播）

MistralForTokenClassification

class transformers.MistralForTokenClassification

forward（前向传播）

MistralForQuestionAnswering

class transformers.MistralForQuestionAnswering

forward（前向传播）

FlaxMistralModel

class transformers.FlaxMistralModel

__call__

FlaxMistralForCausalLM

class transformers.FlaxMistralForCausalLM

__call__

TFMistralModel

class transformers.TFMistralModel

call

TFMistralForCausalLM

class transformers.TFMistralForCausalLM

call

TFMistralForSequenceClassification

class transformers.TFMistralForSequenceClassification

call

call

call