Bitsandbytes 文档

4 位量化

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

入门

4 位量化

QLoRA 是一种微调方法,它将模型量化为 4 位,并在模型中添加一组低秩自适应(LoRA)权重,并通过量化权重调整它们。此方法还引入了新的数据类型,即 4 位 NormalFloat(LinearNF4),除了标准的 Float4 数据类型(LinearFP4)之外。LinearNF4 是针对正态分布数据的一种量化数据类型,可以提高性能。

Linear4bit

class bitsandbytes.nn.Linear4bit

< >

( input_features output_features bias = True compute_dtype = None compress_statistics = True quant_type = 'fp4' quant_storage = torch.uint8 device = None )

此类是 QLoRA 中提出的 4 位量化算法的基本模块。QLoRA 4 位线性层在幕后使用块状 k 位量化,并可以选择各种计算数据类型,例如 FP4 和 NF4。

为了量化线性层,应首先将原始 fp16 / bf16 权重加载到 Linear4bit 模块中,然后调用 quantized_module.to("cuda") 来量化 fp16 / bf16 权重。

示例

import torch
import torch.nn as nn

import bitsandbytes as bnb
from bnb.nn import Linear4bit

fp16_model = nn.Sequential(
    nn.Linear(64, 64),
    nn.Linear(64, 64)
)

quantized_model = nn.Sequential(
    Linear4bit(64, 64),
    Linear4bit(64, 64)
)

quantized_model.load_state_dict(fp16_model.state_dict())
quantized_model = quantized_model.to(0) # Quantization happens here

__init__

< >

( input_features output_features bias = True compute_dtype = None compress_statistics = True quant_type = 'fp4' quant_storage = torch.uint8 device = None )

参数

  • input_features (str) — 线性层的输入特征数量。
  • output_features (str) — 线性层的输出特征数量。
  • bias (bool, 默认为 True) — 线性层是否使用偏置项。

初始化 Linear4bit 类。

LinearFP4

[[autdodoc]] bitsandbytes.nn.LinearFP4

  • init

LinearNF4

bitsandbytes.nn.LinearNF4

< >

( input_features output_features bias = True compute_dtype = None compress_statistics = True quant_storage = torch.uint8 device = None )

实现 NF4 数据类型。

构建一个量化数据类型,其中每个 bin 在标准正态分布 N(0, 1) 中具有相等的面积,并被归一化为 [-1, 1] 范围。

有关更多信息,请阅读论文:QLoRA: Efficient Finetuning of Quantized LLMs (https://arxiv.org/abs/2305.14314)

bitsandbytes 中 NF4 数据类型的实现可以在 functional.py 文件中的 create_normal_map 函数中找到:https://github.com/TimDettmers/bitsandbytes/blob/main/bitsandbytes/functional.py#L236

__init__

< >

( input_features output_features bias = True compute_dtype = None compress_statistics = True quant_storage = torch.uint8 device = None )

参数

  • input_features (str) — 线性层的输入特征数量。
  • bias (bool, 默认为 True) — 线性类是否也使用偏差项。

Params4bit

bitsandbytes.nn.Params4bit

< >

( data: Optional = None requires_grad = False quant_state: Optional = None blocksize: int = 64 compress_statistics: bool = True quant_type: str = 'fp4' quant_storage: dtype = torch.uint8 module: Optional = None bnb_quantized: bool = False )

__init__

( *args **kwargs )

初始化 self。有关准确签名,请参见 help(type(self))。

< > 在 GitHub 上更新