多后端支持(非 CUDA 后端)
作为最近重构工作的一部分,我们很快就会提供正式的多后端支持。目前,此功能可在预览版 alpha 版本中使用,使我们能够收集用户的早期反馈,以改进功能并识别任何错误。
目前,英特尔 CPU 和 AMD ROCm 后端被认为是完全可用的。英特尔 XPU 后端的功能有限,并且不太成熟。
请参阅安装说明,了解有关安装您打算测试(并希望提供反馈)的后端的详细信息。
Apple Silicon 支持计划于 2024 年第四季度推出。我们正在积极寻求贡献者帮助实现此目标,制定具体计划,并创建详细的需求列表。由于资源有限,我们依靠社区的贡献来完成这项实施工作。要进一步讨论,请详细说明您的想法并在此 GitHub 讨论中进行讨论,并标记 @Titus-von-Koeller
和 @matthewdouglas
。谢谢!
Alpha 版本
由于我们目前处于 alpha 测试阶段,因此预计会出现错误,并且性能可能无法达到预期。但是,这正是我们希望从**您**作为最终用户的角度发现的!
请在此处与我们分享和讨论您的反馈
感谢您的支持!
基准测试
英特尔
以下性能数据是从英特尔第四代至强(SPR)平台收集的。这些表格显示了与Llama-2-7b-chat-hf的不同数据类型的速度提升和内存对比。
推理(CPU)
数据类型 | BF16 | INT8 | NF4 | FP4 |
---|---|---|---|---|
速度提升(与 BF16 相比) | 1.0x | 0.6x | 2.3x | 0.03x |
内存(GB) | 13.1 | 7.6 | 5.0 | 4.6 |
CPU 微调
数据类型 | AMP BF16 | INT8 | NF4 | FP4 |
---|---|---|---|---|
加速比 (相较于 AMP BF16) | 1.0x | 0.38x | 0.07x | 0.07x |
内存(GB) | 40 | 9 | 6.6 | 6.6 |