Transformers 文档

环境变量

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

环境变量

HF_ENABLE_PARALLEL_LOADING

默认情况下,此功能处于禁用状态。启用基于 Torch 和 Safetensor 的权重并行加载。可以显著减少加载大型模型所需的时间,通常能将速度提升约 50%。

可设置为等于 "false""true" 的字符串。例如:os.environ["HF_ENABLE_PARALLEL_LOADING"] = "true"

例如:在 AWS EC2 g4dn.metal 实例上,启用此功能后,加载 facebook/opt-30b 大约只需 30 秒,而禁用此功能则需要约 55 秒。

在使用此环境变量之前请先进行性能分析,因为它不会对较小的模型产生加速效果。

import os

os.environ["HF_ENABLE_PARALLEL_LOADING"] = "true"

from transformers import pipeline

model = pipeline(task="text-generation", model="facebook/opt-30b", device_map="auto")

HF_PARALLEL_LOADING_WORKERS

确定启用并行加载时应使用的线程数。默认值为 8

如果正在加载的文件数量少于指定的线程数,则实际生成的线程数将等于文件数量。

例如:如果指定 8 个工作线程,但只有 2 个文件,则只会生成 2 个工作线程。

根据需要进行调整。

import os

os.environ["HF_ENABLE_PARALLEL_LOADING"] = "true"
os.environ["HF_PARALLEL_LOADING_WORKERS"] = "4"

from transformers import pipeline

model = pipeline(task="text-generation", model="facebook/opt-30b", device_map="auto")
< > 在 GitHub 上更新