加速推理
Gaudi 提供了几种使推理速度更快的可能性。
延迟模式
提出了两种执行模式
- 延迟模式,其中操作累积在一个图中,其执行以延迟方式触发。这允许图编译器优化这些操作的设备执行。
- 急切模式,其中一次执行一个操作。
在延迟模式下,图编译器会生成优化的二进制代码,该代码在 Gaudi 上实现给定的模型拓扑。它执行运算符融合、数据布局管理、并行化、流水线和内存管理,以及图级优化。
要在延迟模式下执行推理,您必须提供以下参数
args = GaudiTrainingArguments(
# same arguments as in Transformers,
use_habana=True,
use_lazy_mode=True,
)
在延迟模式下,最后一批可能会触发额外的编译,因为它可能比之前的批次小。为了避免这种情况,您可以使用 dataloader_drop_last=True
丢弃最后一批。
HPU 图
Gaudi 提供了一种使用 HPU 图进行快速推理的方法。它包括在 HPU 流中捕获一系列操作(即图),然后以优化的方式重放它们(更多信息此处)。因此,您可以将其应用于模型的 forward
方法以在推理时有效地运行它。
HPU 图已集成到 GaudiTrainer
和 GaudiStableDiffusionPipeline
中,以便用户可以非常轻松地使用它们。
GaudiTrainer
需要将训练参数use_hpu_graphs_for_inference
设置为True
,如下所示
from optimum.habana import GaudiTrainer, GaudiTrainingArguments
# define the training arguments
training_args = GaudiTrainingArguments(
use_habana=True,
use_lazy_mode=True,
use_hpu_graphs_for_inference=True,
gaudi_config_name=gaudi_config_name,
...
)
# Initialize our Trainer
trainer = GaudiTrainer(
model=model,
args=training_args,
train_dataset=train_dataset
... # other arguments
)
GaudiStableDiffusionPipeline
需要将其参数use_hpu_graphs
设置为True
,例如
from optimum.habana.diffusers import GaudiDDIMScheduler, GaudiStableDiffusionPipeline
model_name = "CompVis/stable-diffusion-v1-4"
scheduler = GaudiDDIMScheduler.from_pretrained(model_name, subfolder="scheduler")
pipeline = GaudiStableDiffusionPipeline.from_pretrained(
model_name,
scheduler=scheduler,
use_habana=True,
use_hpu_graphs=True,
gaudi_config="Habana/stable-diffusion",
)
outputs = generator(
["An image of a squirrel in Picasso style"],
num_images_per_prompt=16,
batch_size=4,
)
使用 HPU 图并在延迟模式下,由于图编译,前几次迭代可能会比较慢。