Bitsandbytes 文档

bitsandbytes

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

bitsandbytes

bitsandbytes 通过 k-bit 量化为 PyTorch 提供可访问的大型语言模型。 bitsandbytes 提供了三个主要功能,可显著降低推理和训练的内存消耗

  • 8-bit 优化器使用块状量化,以一小部分内存成本维持 32-bit 性能。
  • LLM.int8() 或 8-bit 量化使大型语言模型推理仅需一半的内存,且不会降低任何性能。 此方法基于向量化量化,将大多数特征量化为 8-bit,并使用 16-bit 矩阵乘法单独处理异常值。
  • QLoRA 或 4-bit 量化通过多种节省内存的技术实现大型语言模型训练,而不会影响性能。 此方法将模型量化为 4-bit,并插入一小组可训练的低秩自适应 (LoRA) 权重以允许训练。

许可证

bitsandbytes 基于 MIT 许可证。

感谢 Fabio Cannizzo 在 FastBinarySearch 上的工作,我们将其用于 CPU 量化。

< > 更新 在 GitHub 上