Bitsandbytes 文档
bitsandbytes
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
bitsandbytes
bitsandbytes 通过 PyTorch 的 k-bit 量化技术,让大型语言模型变得触手可及。bitsandbytes 提供了三个主要功能,可显著减少推理和训练时的内存消耗:
- 8位优化器使用分块量化技术,在仅占用一小部分内存成本的情况下,保持了32位的性能。
- LLM.int8() 或8位量化技术,使大型语言模型推理所需的内存减半,且不会造成任何性能下降。该方法基于向量级量化,将大部分特征量化为8位,并用16位矩阵乘法单独处理异常值。
- QLoRA 或4位量化技术,通过多种不影响性能的内存节省技术,实现了大型语言模型的训练。该方法将模型量化到4位,并插入一小组可训练的低秩适配(LoRA)权重以支持训练。
许可协议
bitsandbytes 采用 MIT 许可协议。
我们感谢 Fabio Cannizzo 在 FastBinarySearch 上的工作,我们将其用于 CPU 量化。
< > 在 GitHub 上更新