Optimum 文档
快速浏览
并获得增强的文档体验
开始使用
快速浏览
本快速浏览旨在为准备深入代码并查看如何将 🤗 Optimum 集成到其模型训练和推理工作流程中的开发人员而设计。
加速推理
OpenVINO
要使用 OpenVINO Runtime 加载模型并运行推理,您只需将您的 AutoModelForXxx
类替换为相应的 OVModelForXxx
类。 如果您想加载 PyTorch 检查点,请设置 export=True
以将您的模型转换为 OpenVINO IR(中间表示)。
- from transformers import AutoModelForSequenceClassification
+ from optimum.intel.openvino import OVModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
# Download a tokenizer and model from the Hub and convert to OpenVINO format
tokenizer = AutoTokenizer.from_pretrained(model_id)
model_id = "distilbert-base-uncased-finetuned-sst-2-english"
- model = AutoModelForSequenceClassification.from_pretrained(model_id)
+ model = OVModelForSequenceClassification.from_pretrained(model_id, export=True)
# Run inference!
classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)
results = classifier("He's a dreadful magician.")
ONNX Runtime
为了使用 ONNX Runtime 加速推理,🤗 Optimum 使用配置对象来定义图优化和量化的参数。 这些对象随后用于实例化专用的优化器和量化器。
在应用量化或优化之前,我们首先需要加载我们的模型。 要使用 ONNX Runtime 加载模型并运行推理,您只需将规范的 Transformers AutoModelForXxx
类替换为相应的 ORTModelForXxx
类。 如果您想从 PyTorch 检查点加载,请设置 export=True
以将您的模型导出为 ONNX 格式。
>>> from optimum.onnxruntime import ORTModelForSequenceClassification
>>> from transformers import AutoTokenizer
>>> model_checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
>>> save_directory = "tmp/onnx/"
>>> # Load a model from transformers and export it to ONNX
>>> tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
>>> ort_model = ORTModelForSequenceClassification.from_pretrained(model_checkpoint, export=True)
>>> # Save the ONNX model and tokenizer
>>> ort_model.save_pretrained(save_directory)
>>> tokenizer.save_pretrained(save_directory)
现在让我们看看如何使用 ONNX Runtime 应用动态量化
>>> from optimum.onnxruntime.configuration import AutoQuantizationConfig
>>> from optimum.onnxruntime import ORTQuantizer
>>> # Define the quantization methodology
>>> qconfig = AutoQuantizationConfig.arm64(is_static=False, per_channel=False)
>>> quantizer = ORTQuantizer.from_pretrained(ort_model)
>>> # Apply dynamic quantization on the model
>>> quantizer.quantize(save_dir=save_directory, quantization_config=qconfig)
在此示例中,我们量化了来自 Hugging Face Hub 的模型,以相同的方式,我们可以通过提供包含模型权重的目录路径来量化本地托管的模型。 应用 quantize()
方法的结果是一个 model_quantized.onnx
文件,可用于运行推理。 这是一个如何加载 ONNX Runtime 模型并使用它生成预测的示例
>>> from optimum.onnxruntime import ORTModelForSequenceClassification
>>> from transformers import pipeline, AutoTokenizer
>>> model = ORTModelForSequenceClassification.from_pretrained(save_directory, file_name="model_quantized.onnx")
>>> tokenizer = AutoTokenizer.from_pretrained(save_directory)
>>> classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)
>>> results = classifier("I love burritos!")
加速训练
Habana
为了在 Habana 的 Gaudi 处理器上训练 transformers,🤗 Optimum 提供了 GaudiTrainer
,它与 🤗 Transformers Trainer 非常相似。 这是一个简单的例子
- from transformers import Trainer, TrainingArguments
+ from optimum.habana import GaudiTrainer, GaudiTrainingArguments
# Download a pretrained model from the Hub
model = AutoModelForXxx.from_pretrained("bert-base-uncased")
# Define the training arguments
- training_args = TrainingArguments(
+ training_args = GaudiTrainingArguments(
output_dir="path/to/save/folder/",
+ use_habana=True,
+ use_lazy_mode=True,
+ gaudi_config_name="Habana/bert-base-uncased",
...
)
# Initialize the trainer
- trainer = Trainer(
+ trainer = GaudiTrainer(
model=model,
args=training_args,
train_dataset=train_dataset,
...
)
# Use Habana Gaudi processor for training!
trainer.train()
ONNX Runtime
为了使用 ONNX Runtime 的加速功能训练 transformers,🤗 Optimum 提供了 ORTTrainer
,它与 🤗 Transformers Trainer 非常相似。 这是一个简单的例子
- from transformers import Trainer, TrainingArguments
+ from optimum.onnxruntime import ORTTrainer, ORTTrainingArguments
# Download a pretrained model from the Hub
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
# Define the training arguments
- training_args = TrainingArguments(
+ training_args = ORTTrainingArguments(
output_dir="path/to/save/folder/",
optim="adamw_ort_fused",
...
)
# Create a ONNX Runtime Trainer
- trainer = Trainer(
+ trainer = ORTTrainer(
model=model,
args=training_args,
train_dataset=train_dataset,
+ feature="text-classification", # The model type to export to ONNX
...
)
# Use ONNX Runtime for training!
trainer.train()
开箱即用的 ONNX 导出
Optimum 库开箱即用地处理 Transformers 和 Diffusers 模型的 ONNX 导出!
将模型导出到 ONNX 非常简单,只需
optimum-cli export onnx --model gpt2 gpt2_onnx/
查看帮助以获取更多选项
optimum-cli export onnx --help
查看文档以了解更多信息。
PyTorch 的 BetterTransformer 支持
BetterTransformer 是一种免费的 PyTorch 原生优化,可在基于 Transformer 的模型的推理中获得 x1.25 - x4 的加速。 它在 PyTorch 1.13 中被标记为稳定。 我们将 BetterTransformer 与 🤗 Transformers 库中最常用的模型集成在一起,使用该集成非常简单,只需
>>> from optimum.bettertransformer import BetterTransformer
>>> from transformers import AutoModelForSequenceClassification
>>> model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
>>> model = BetterTransformer.transform(model)
查看文档以了解更多详情,并查看 PyTorch Medium 上的博客文章,以了解有关集成的更多信息!
torch.fx 集成
Optimum 与 torch.fx
集成,以单行代码提供多种图转换。 我们的目标是通过 torch.fx
支持更好地管理量化,包括量化感知训练 (QAT) 和训练后量化 (PTQ)。