bitsandbytes
bitsandbytes 通过用于 PyTorch 的 k 位量化,使大型语言模型变得触手可及。bitsandbytes 提供三个主要功能,可显着减少推理和训练的内存消耗
- 8 位优化器使用分块量化来以一小部分内存成本维持 32 位性能。
- LLM.Int() 或 8 位量化使大型语言模型推理仅需一半的内存,且不会造成性能下降。此方法基于向量量化,将大多数特征量化为 8 位,并使用 16 位矩阵乘法单独处理异常值。
- QLoRA 或 4 位量化使大型语言模型训练能够使用多种节省内存的技术,而不会影响性能。此方法将模型量化为 4 位,并插入一组小的可训练低秩自适应(LoRA)权重,以便进行训练。
许可证
bitsandbytes 采用 MIT 许可证。
我们感谢 Fabio Cannizzo 在 FastBinarySearch 上的工作,我们在 CPU 量化中使用了该工作。
< > 更新 在 GitHub 上