Bitsandbytes 文档

bitsandbytes

Bitsandbytes

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

bitsandbytes

bitsandbytes 通过 k-bit 量化为 PyTorch 提供可访问的大型语言模型。 bitsandbytes 提供了三个主要功能，可显著降低推理和训练的内存消耗

8-bit 优化器使用块状量化，以一小部分内存成本维持 32-bit 性能。
LLM.int8() 或 8-bit 量化使大型语言模型推理仅需一半的内存，且不会降低任何性能。此方法基于向量化量化，将大多数特征量化为 8-bit，并使用 16-bit 矩阵乘法单独处理异常值。
QLoRA 或 4-bit 量化通过多种节省内存的技术实现大型语言模型训练，而不会影响性能。此方法将模型量化为 4-bit，并插入一小组可训练的低秩自适应 (LoRA) 权重以允许训练。

许可证

bitsandbytes 基于 MIT 许可证。

感谢 Fabio Cannizzo 在 FastBinarySearch 上的工作，我们将其用于 CPU 量化。

< > 更新在 GitHub 上

快速入门→