Bitsandbytes 文档
多后端支持(非 CUDA 后端)
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
多后端支持(非 CUDA 后端)
如果您认为这些文档需要一些额外的信息,请考虑提交 PR 或在下面提到的 Github 讨论区之一礼貌地请求缺失的信息。
作为最近重构工作的一部分,我们很快将提供官方的多后端支持。目前,此功能在预览 alpha 版本中提供,使我们能够收集用户的早期反馈,以改进功能并识别任何错误。
目前,Intel CPU 和 AMD ROCm 后端被认为是完全功能的。Intel XPU 后端功能有限,成熟度较低。
请参阅 安装说明,了解有关安装您打算测试的后端(并希望提供反馈)的详细信息。
Apple Silicon 支持计划于 2024 年第四季度推出。我们正在积极寻找贡献者来帮助实现此目标、制定具体计划并创建详细的需求列表。由于资源有限,我们依赖社区贡献来实现此目标。要进一步讨论,请详细阐述您的想法并在 此 GitHub 讨论 中讨论,并标记 @Titus-von-Koeller
和 @matthewdouglas
。谢谢!
Alpha 版本
由于我们目前处于 alpha 测试阶段,因此预计会出现错误,并且性能可能无法达到预期。但是,这正是我们希望从您作为最终用户的角度发现的!
请在此处与我们分享和讨论您的反馈
感谢您的支持!
基准测试
Intel
以下性能数据是从 Intel 第四代 Xeon (SPR) 平台收集的。这些表格显示了与 Llama-2-7b-chat-hf 不同数据类型相比的速度提升和内存。
推理 (CPU)
数据类型 | BF16 | INT8 | NF4 | FP4 |
---|---|---|---|---|
速度提升(相对于 BF16) | 1.0x | 0.6x | 2.3x | 0.03x |
内存 (GB) | 13.1 | 7.6 | 5.0 | 4.6 |
微调 (CPU)
数据类型 | AMP BF16 | INT8 | NF4 | FP4 |
---|---|---|---|---|
速度提升(相对于 AMP BF16) | 1.0x | 0.38x | 0.07x | 0.07x |
内存 (GB) | 40 | 9 | 6.6 | 6.6 |