Bitsandbytes 文档

bitsandbytes

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

bitsandbytes

bitsandbytes 通过 PyTorch 的 k-bit 量化技术,让大型语言模型变得触手可及。bitsandbytes 提供了三个主要功能,可显著减少推理和训练时的内存消耗:

  • 8位优化器使用分块量化技术,在仅占用一小部分内存成本的情况下,保持了32位的性能。
  • LLM.int8() 或8位量化技术,使大型语言模型推理所需的内存减半,且不会造成任何性能下降。该方法基于向量级量化,将大部分特征量化为8位,并用16位矩阵乘法单独处理异常值。
  • QLoRA 或4位量化技术,通过多种不影响性能的内存节省技术,实现了大型语言模型的训练。该方法将模型量化到4位,并插入一小组可训练的低秩适配(LoRA)权重以支持训练。

许可协议

bitsandbytes 采用 MIT 许可协议。

我们感谢 Fabio Cannizzo 在 FastBinarySearch 上的工作,我们将其用于 CPU 量化。

< > 在 GitHub 上更新