Bitsandbytes 文档

多后端支持(非 CUDA 后端)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

多后端支持(非 CUDA 后端)

作为最近重构工作的一部分,我们很快就会提供正式的多后端支持。目前,此功能可在预览版 alpha 版本中使用,使我们能够收集用户的早期反馈,以改进功能并识别任何错误。

目前,英特尔 CPU 和 AMD ROCm 后端被认为是完全可用的。英特尔 XPU 后端的功能有限,并且不太成熟。

请参阅安装说明,了解有关安装您打算测试(并希望提供反馈)的后端的详细信息。

Apple Silicon 支持计划于 2024 年第四季度推出。我们正在积极寻求贡献者帮助实现此目标,制定具体计划,并创建详细的需求列表。由于资源有限,我们依靠社区的贡献来完成这项实施工作。要进一步讨论,请详细说明您的想法并在此 GitHub 讨论中进行讨论,并标记 @Titus-von-Koeller@matthewdouglas。谢谢!

Alpha 版本

由于我们目前处于 alpha 测试阶段,因此预计会出现错误,并且性能可能无法达到预期。但是,这正是我们希望从**您**作为最终用户的角度发现的!

请在此处与我们分享和讨论您的反馈

感谢您的支持!

基准测试

英特尔

以下性能数据是从英特尔第四代至强(SPR)平台收集的。这些表格显示了与Llama-2-7b-chat-hf的不同数据类型的速度提升和内存对比。

推理(CPU)

数据类型 BF16 INT8 NF4 FP4
速度提升(与 BF16 相比) 1.0x 0.6x 2.3x 0.03x
内存(GB)

13.1 7.6 5.0 4.6

CPU 微调

数据类型 AMP BF16 INT8 NF4 FP4
加速比 (相较于 AMP BF16) 1.0x 0.38x 0.07x 0.07x
内存(GB)

40 9 6.6 6.6
< > 在 GitHub 上更新