Bitsandbytes 文档

多后端支持(非 CUDA 后端)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

多后端支持(非 CUDA 后端)

如果您认为这些文档需要一些额外的信息,请考虑提交 PR 或在下面提到的 Github 讨论区之一礼貌地请求缺失的信息。

作为最近重构工作的一部分,我们很快将提供官方的多后端支持。目前,此功能在预览 alpha 版本中提供,使我们能够收集用户的早期反馈,以改进功能并识别任何错误。

目前,Intel CPU 和 AMD ROCm 后端被认为是完全功能的。Intel XPU 后端功能有限,成熟度较低。

请参阅 安装说明,了解有关安装您打算测试的后端(并希望提供反馈)的详细信息。

Apple Silicon 支持计划于 2024 年第四季度推出。我们正在积极寻找贡献者来帮助实现此目标、制定具体计划并创建详细的需求列表。由于资源有限,我们依赖社区贡献来实现此目标。要进一步讨论,请详细阐述您的想法并在 此 GitHub 讨论 中讨论,并标记 @Titus-von-Koeller@matthewdouglas。谢谢!

Alpha 版本

由于我们目前处于 alpha 测试阶段,因此预计会出现错误,并且性能可能无法达到预期。但是,这正是我们希望从您作为最终用户的角度发现的!

请在此处与我们分享和讨论您的反馈

感谢您的支持!

基准测试

Intel

以下性能数据是从 Intel 第四代 Xeon (SPR) 平台收集的。这些表格显示了与 Llama-2-7b-chat-hf 不同数据类型相比的速度提升和内存。

推理 (CPU)

数据类型 BF16 INT8 NF4 FP4
速度提升(相对于 BF16) 1.0x 0.6x 2.3x 0.03x
内存 (GB) 13.1 7.6 5.0 4.6

微调 (CPU)

数据类型 AMP BF16 INT8 NF4 FP4
速度提升(相对于 AMP BF16) 1.0x 0.38x 0.07x 0.07x
内存 (GB) 40 9 6.6 6.6
< > 在 GitHub 上更新