分布式运行器

class optimum.habana.distributed.DistributedRunner

( command_list: typing.List = [] world_size: int = 1 hostfile: typing.Union[str, pathlib.Path] = None use_mpi: bool = False use_deepspeed: bool = False master_port: int = 29500 use_env: bool = False map_by: bool = 'socket' multi_hls = None )

设置训练/推理硬件配置并运行分布式命令。

create_multi_node_setup

< 源 >

( )

用于 DeepSpeed 的多节点配置设置。

create_single_card_setup

< 源 >

( use_deepspeed = False )

单卡设置。

create_single_node_setup

< 源 >

( )

单节点多卡配置设置。

create_single_node_setup_deepspeed

< 源 >

( )

用于 DeepSpeed 的单节点多卡配置设置。

create_single_node_setup_mpirun

< 源 >

( )

用于 mpirun 的单节点多卡配置设置。

process_hostfile

< 源 >

( ) → str

字符串

主节点的地址。

返回用于 DeepSpeed 多节点运行的主地址。直接受 https://github.com/microsoft/DeepSpeed/blob/316c4a43e0802a979951ee17f735daf77ea9780f/deepspeed/autotuning/utils.py#L145 的启发。

run

< 源 >

( )

运行用户指定的命令。

< > 在 GitHub 上更新

Optimum

分布式运行器

class optimum.habana.distributed.DistributedRunner

create_multi_node_setup

create_single_card_setup

create_single_node_setup

create_single_node_setup_deepspeed

create_single_node_setup_mpirun

process_hostfile

run