Accelerate 文档

处理大型模型

Accelerate

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

在文档主题之间切换

开始使用

处理大型模型

调度和卸载

init_empty_weights

accelerate.init_empty_weights

< 源代码 >

( include_buffers: bool = None )

参数

include_buffers (bool, 可选) — 是否在初始化时也将所有缓冲区放在 meta 设备上。

一个上下文管理器，在此管理器下，模型的所有参数都在 meta 设备上初始化，从而创建一个空模型。当仅初始化模型就会耗尽可用 RAM 时非常有用。

示例

import torch.nn as nn
from accelerate import init_empty_weights

# Initialize a model with 100 billions parameters in no time and without using any RAM.
with init_empty_weights():
    tst = nn.Sequential(*[nn.Linear(10000, 10000) for _ in range(1000)])

在此上下文管理器下创建的任何模型都没有权重。因此，你无法对其执行类似 model.to(some_device) 的操作。要在空模型中加载权重，请参阅 load_checkpoint_and_dispatch()。确保覆盖 load_checkpoint_and_dispatch() 的默认 device_map 参数，否则不会调用调度。

cpu_offload

accelerate.cpu_offload

< 源代码 >

( model: Module execution_device: typing.Optional[torch.device] = None offload_buffers: bool = False state_dict: typing.Optional[dict[str, torch.Tensor]] = None preload_module_classes: typing.Optional[list[str]] = None )

参数

model (torch.nn.Module) — 要卸载的模型。
execution_device (torch.device, 可选) — 模型的前向传递将在其上执行的设备（应为 GPU）。将默认为模型的第一个参数设备。
offload_buffers (bool, 可选, 默认为 False) — 是否将缓冲区与模型参数一起卸载。
state_dict (Dict[str, torch.Tensor], 可选) — 模型的 state dict，将保留在 CPU 上。
preload_module_classes (List[str], 可选) — 类列表，其实例应在其 forward 的开头加载所有权重（即使在子模块中）。这应仅用于具有已注册但未在 forward 期间直接调用的子模块的类，例如，如果注册了一个 dense 线性层，但在 forward 时，使用 dense.weight 和 dense.bias 进行某些操作，而不是直接调用 dense。

激活模型的完全 CPU 卸载。因此，模型的所有参数都将被卸载，并且仅保留模型状态字典的一个副本。在前向传递期间，参数将从该状态字典中提取出来，并在需要时放置在作为参数传递的执行设备上，然后再卸载。

cpu_offload_with_hook

accelerate.cpu_offload_with_hook

< 源代码 >

( model: Module execution_device: typing.Union[str, torch.device, int, NoneType] = None prev_module_hook: typing.Optional[accelerate.hooks.UserCpuOffloadHook] = None )

参数

model (torch.nn.Module) — 要卸载的模型。
execution_device(str, int 或 torch.device, 可选) — 模型应在其上执行的设备。如果 MPS 设备可用，则默认为 MPS 设备，如果存在 GPU，则默认为 GPU 0，最后默认为 CPU。
prev_module_hook (UserCpuOffloadHook, 可选) — 此函数为正在运行的管道中的先前模型发送回的钩子。如果传递，则将在附加此钩子的模型的前向传递之前调用其 offload 方法。

将模型卸载到 CPU 上，并在执行时将其放回执行设备。与 cpu_offload() 的区别在于，模型在前向传递后仍保留在执行设备上，并且仅在调用返回的 hook 的 offload 方法时才再次卸载。对于在循环中运行模型的管道非常有用。

示例

model_1, hook_1 = cpu_offload_with_hook(model_1, cuda_device)
model_2, hook_2 = cpu_offload_with_hook(model_2, cuda_device, prev_module_hook=hook_1)
model_3, hook_3 = cpu_offload_with_hook(model_3, cuda_device, prev_module_hook=hook_2)

hid_1 = model_1(input)
for i in range(50):
    # model1 is offloaded on the CPU at the first iteration, model 2 stays on the GPU for this whole loop.
    hid_2 = model_2(hid_1)
# model2 is offloaded to the CPU just before this forward.
hid_3 = model_3(hid_3)

# For model3, you need to manually call the hook offload method.
hook_3.offload()

Accelerate

处理大型模型

调度和卸载

init_empty_weights

accelerate.init_empty_weights

cpu_offload

accelerate.cpu_offload

cpu_offload_with_hook

accelerate.cpu_offload_with_hook

disk_offload

accelerate.disk_offload

dispatch_model

accelerate.dispatch_model

load_checkpoint_and_dispatch

accelerate.load_checkpoint_and_dispatch

load_checkpoint_in_model

accelerate.load_checkpoint_in_model

infer_auto_device_map

accelerate.infer_auto_device_map

Hooks

ModelHook

class accelerate.hooks.ModelHook

detach_hook

init_hook

post_forward

pre_forward

AlignDevicesHook

class accelerate.hooks.AlignDevicesHook

SequentialHook

class accelerate.hooks.SequentialHook

添加钩子

add_hook_to_module

accelerate.hooks.add_hook_to_module

attach_execution_device_hook

accelerate.hooks.attach_execution_device_hook

attach_align_device_hook

accelerate.hooks.attach_align_device_hook

attach_align_device_hook_on_blocks

accelerate.hooks.attach_align_device_hook_on_blocks

移除 Hooks

remove_hook_from_module

accelerate.hooks.remove_hook_from_module

remove_hook_from_submodules

accelerate.hooks.remove_hook_from_submodules

实用工具

has_offloaded_params

accelerate.utils.has_offloaded_params

align_module_device

accelerate.utils.align_module_device