Bitsandbytes 文档
bitsandbytes
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
bitsandbytes
bitsandbytes 通过 k-bit 量化为 PyTorch 提供可访问的大型语言模型。 bitsandbytes 提供了三个主要功能,可显著降低推理和训练的内存消耗
- 8-bit 优化器使用块状量化,以一小部分内存成本维持 32-bit 性能。
- LLM.int8() 或 8-bit 量化使大型语言模型推理仅需一半的内存,且不会降低任何性能。 此方法基于向量化量化,将大多数特征量化为 8-bit,并使用 16-bit 矩阵乘法单独处理异常值。
- QLoRA 或 4-bit 量化通过多种节省内存的技术实现大型语言模型训练,而不会影响性能。 此方法将模型量化为 4-bit,并插入一小组可训练的低秩自适应 (LoRA) 权重以允许训练。
许可证
bitsandbytes 基于 MIT 许可证。
感谢 Fabio Cannizzo 在 FastBinarySearch 上的工作,我们将其用于 CPU 量化。
< > 更新 在 GitHub 上