英特尔® PyTorch 扩展
IPEX 针对具有 AVX-512 或更高版本的 CPU 进行了优化,并且在仅具有 AVX2 的 CPU 上也能正常工作。因此,预计它将为具有 AVX-512 或更高版本的英特尔 CPU 世代带来性能提升,而仅具有 AVX2 的 CPU(例如 AMD CPU 或较旧的英特尔 CPU)在 IPEX 下可能会获得更好的性能,但不能保证。IPEX 为使用 Float32 和 BFloat16 的 CPU 训练提供了性能优化。BFloat16 的使用是以下各节的主要关注点。
低精度数据类型 BFloat16 已在具有 AVX512 指令集的第三代至强®可扩展处理器(又名 Cooper Lake)上得到原生支持,并将通过英特尔®高级矩阵扩展(英特尔® AMX)指令集在下一代英特尔®至强®可扩展处理器上得到支持,并进一步提升性能。CPU 后端的自动混合精度自 PyTorch-1.10 起启用。同时,英特尔®扩展 for PyTorch 大量启用了 CPU 的 BFloat16 自动混合精度支持和算子的 BFloat16 优化,并部分上游到 PyTorch 主分支。用户可以通过 IPEX 自动混合精度获得更好的性能和用户体验。
IPEX 安装:
IPEX 版本跟随 PyTorch 发布,可以通过 pip 安装
PyTorch 版本 | IPEX 版本 |
---|---|
2.0 | 2.0.0 |
1.13 | 1.13.0 |
1.12 | 1.12.300 |
1.11 | 1.11.200 |
1.10 | 1.10.100 |
pip install intel_extension_for_pytorch==<version_name> -f https://developer.intel.com/ipex-whl-stable-cpu
查看更多关于 IPEX 安装 的方法。
CPU 训练优化工作原理
Accelerate 已集成 IPEX,您只需通过配置启用它即可。
场景 1:非分布式 CPU 训练的加速
在您的机器上运行accelerate config
$ accelerate config
-----------------------------------------------------------------------------------------------------------------------------------------------------------
In which compute environment are you running?
This machine
-----------------------------------------------------------------------------------------------------------------------------------------------------------
Which type of machine are you using?
No distributed training
Do you want to run your training on CPU only (even if a GPU / Apple Silicon device is available)? [yes/NO]:yes
Do you want to use Intel PyTorch Extension (IPEX) to speed up training on CPU? [yes/NO]:yes
Do you wish to optimize your script with torch dynamo?[yes/NO]:NO
Do you want to use DeepSpeed? [yes/NO]: NO
-----------------------------------------------------------------------------------------------------------------------------------------------------------
Do you wish to use FP16 or BF16 (mixed precision)?
bf16
这将生成一个配置文件,该文件将在执行操作时自动用于正确设置默认选项
accelerate launch my_script.py --args_to_my_script
例如,以下是如何在启用 IPEX 的情况下运行 NLP 示例 examples/nlp_example.py
(来自存储库的根目录)。accelerate config
后生成的 default_config.yaml
compute_environment: LOCAL_MACHINE
distributed_type: 'NO'
downcast_bf16: 'no'
ipex_config:
ipex: true
machine_rank: 0
main_training_function: main
mixed_precision: bf16
num_machines: 1
num_processes: 1
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: true
accelerate launch examples/nlp_example.py
场景 2:分布式 CPU 训练的加速 我们使用 Intel oneCCL 进行通信,并结合 Intel® MPI 库在英特尔®架构上提供灵活、高效、可扩展的集群消息传递。您可以参考 此处 获取安装指南
在您的机器(节点 0)上运行accelerate config
$ accelerate config
-----------------------------------------------------------------------------------------------------------------------------------------------------------
In which compute environment are you running?
This machine
-----------------------------------------------------------------------------------------------------------------------------------------------------------
Which type of machine are you using?
multi-CPU
How many different machines will you use (use more than 1 for multi-node training)? [1]: 4
-----------------------------------------------------------------------------------------------------------------------------------------------------------
What is the rank of this machine?
0
What is the IP address of the machine that will host the main process? 36.112.23.24
What is the port you will use to communicate with the main process? 29500
Are all the machines on the same local network? Answer `no` if nodes are on the cloud and/or on different network hosts [YES/no]: yes
Do you want to use Intel PyTorch Extension (IPEX) to speed up training on CPU? [yes/NO]:yes
Do you want accelerate to launch mpirun? [yes/NO]: yes
Please enter the path to the hostfile to use with mpirun [~/hostfile]: ~/hostfile
Enter the number of oneCCL worker threads [1]: 1
Do you wish to optimize your script with torch dynamo?[yes/NO]:NO
How many processes should be used for distributed training? [1]:16
-----------------------------------------------------------------------------------------------------------------------------------------------------------
Do you wish to use FP16 or BF16 (mixed precision)?
bf16
例如,以下是如何在启用 IPEX 的情况下运行 NLP 示例 examples/nlp_example.py
(来自存储库的根目录)以进行分布式 CPU 训练。
accelerate config
后生成的 default_config.yaml
compute_environment: LOCAL_MACHINE
distributed_type: MULTI_CPU
downcast_bf16: 'no'
ipex_config:
ipex: true
machine_rank: 0
main_process_ip: 36.112.23.24
main_process_port: 29500
main_training_function: main
mixed_precision: bf16
mpirun_config:
mpirun_ccl: '1'
mpirun_hostfile: /home/user/hostfile
num_machines: 4
num_processes: 16
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: true
设置以下环境并使用 Intel MPI 启动训练
在节点 0 中,您需要创建一个包含每个节点 IP 地址的配置文件(例如 hostfile),并将该配置文件路径作为参数传递。如果您选择让 Accelerate 启动 mpirun
,请确保您的 hostfile 位置与配置文件中的路径匹配。
$ cat hostfile
xxx.xxx.xxx.xxx #node0 ip
xxx.xxx.xxx.xxx #node1 ip
xxx.xxx.xxx.xxx #node2 ip
xxx.xxx.xxx.xxx #node3 ip
当 Accelerate 启动 mpirun
时,使用 oneCCL 绑定 setvars.sh 获取您的 Intel MPI 环境,然后使用 accelerate launch
运行您的脚本。请注意,python 脚本和环境需要存在于用于多 CPU 训练的所有机器上。
oneccl_bindings_for_pytorch_path=$(python -c "from oneccl_bindings_for_pytorch import cwd; print(cwd)")
source $oneccl_bindings_for_pytorch_path/env/setvars.sh
accelerate launch examples/nlp_example.py
否则,如果您选择不使用 Accelerate 启动 mpirun
,请在节点 0 中运行以下命令,并且将在节点 0、节点 1、节点 2、节点 3 中启用 16DDP,并使用 BF16 混合精度。使用此方法时,python 脚本、python 环境和 accelerate 配置文件需要存在于用于多 CPU 训练的所有机器上。
oneccl_bindings_for_pytorch_path=$(python -c "from oneccl_bindings_for_pytorch import cwd; print(cwd)")
source $oneccl_bindings_for_pytorch_path/env/setvars.sh
export CCL_WORKER_COUNT=1
export MASTER_ADDR=xxx.xxx.xxx.xxx #node0 ip
export CCL_ATL_TRANSPORT=ofi
mpirun -f hostfile -n 16 -ppn 4 accelerate launch examples/nlp_example.py