概述

bitsandbytes.functional API 为库的功能提供了低级构建块。

何时使用 bitsandbytes.functional

当您需要直接控制量化操作及其参数时。
构建利用低位算术的自定义层或操作。
与其他生态系统工具集成。
出于实验或研究目的，需要非标准量化或性能优化。

LLM.int8()

bitsandbytes.functional.int8_double_quant

( A: 张量 col_stats: typing.Optional[torch.Tensor] = None row_stats: typing.Optional[torch.Tensor] = None out_col: typing.Optional[torch.Tensor] = None out_row: typing.Optional[torch.Tensor] = None threshold = 0.0 ) → Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, Optional[torch.Tensor]]

参数

A (torch.Tensor，数据类型为 torch.float16) — 输入矩阵。
col_stats (torch.Tensor，可选) — 用于保存列式量化比例的预分配张量。
row_stats (torch.Tensor，可选) — 用于保存行式量化比例的预分配张量。
out_col (torch.Tensor，可选) — 用于保存列式量化数据的预分配张量。
out_row (torch.Tensor，可选) — 用于保存行式量化数据的预分配张量。
threshold (float，可选) — 异常值特征的稀疏分解的可选阈值。

当为 0.0 时，不保留任何异常值。默认为 0.0。

返回值

Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, Optional[torch.Tensor]]

一个元组，包含量化张量和相关统计信息。

torch.Tensor，数据类型为 torch.int8：行式量化数据。
torch.Tensor，数据类型为 torch.int8：列式量化数据。
torch.Tensor，数据类型为 torch.float32：行式量化比例。
torch.Tensor，数据类型为 torch.float32：列式量化比例。
torch.Tensor，数据类型为 torch.int32，可选：包含异常值特征的列索引列表。

根据 LLM.int8() 算法确定输入矩阵 A 的量化统计信息。

统计信息是按行和按列（转置）确定的。

有关更多信息，请参阅 LLM.int8() 论文。

此函数对于训练很有用，但对于推理，建议改用 `int8_vectorwise_quant`。此实现执行额外的列式转置计算，这些计算未进行优化。

bitsandbytes.functional.int8_linear_matmul

< 源代码 >

( A: 张量 B: 张量 out: typing.Optional[torch.Tensor] = None dtype = torch.int32 ) → torch.Tensor

参数

A (torch.Tensor) — 第一个矩阵操作数，数据类型为 torch.int8。
B (torch.Tensor) — 第二个矩阵操作数，数据类型为 torch.int8。
out (torch.Tensor，可选) — 用于存储结果的预分配张量。
dtype (torch.dtype，可选) — 输出的预期数据类型。默认为 torch.int32。

返回值

torch.Tensor

操作结果。

引发

NotImplementedError 或 RuntimeError

NotImplementedError — 当前环境不支持该操作。
RuntimeError — 当由于任何其他原因无法完成操作时引发。

执行 8 位整数矩阵乘法。

应用线性变换，使得 out = A @ B.T。如果可能，将使用整数张量核心硬件来加速操作。

bitsandbytes.functional.int8_mm_dequant

< 源代码 >

( A: 张量 row_stats: 张量 col_stats: 张量 out: typing.Optional[torch.Tensor] = None bias: typing.Optional[torch.Tensor] = None ) → torch.Tensor

参数

A (torch.Tensor，数据类型为 torch.int32) — 量化 int8 矩阵乘法的结果。
row_stats (torch.Tensor) — 矩阵乘法左侧操作数的行式量化统计信息。
col_stats (torch.Tensor) — 矩阵乘法右侧操作数的列式量化统计信息。
out (torch.Tensor, optional) — 用于存储操作输出的预分配张量。
bias (torch.Tensor, optional) — 可选的偏置向量，添加到结果中。

返回值

torch.Tensor

反量化结果，带有可选的偏置，数据类型为 torch.float16。

对量化 int8 矩阵乘法的结果执行反量化。

Bitsandbytes

概述

何时使用 bitsandbytes.functional

LLM.int8()

bitsandbytes.functional.int8_double_quant

bitsandbytes.functional.int8_linear_matmul

bitsandbytes.functional.int8_mm_dequant

bitsandbytes.functional.int8_vectorwise_dequant

bitsandbytes.functional.int8_vectorwise_quant

4 位

bitsandbytes.functional.dequantize_4bit

bitsandbytes.functional.dequantize_fp4

bitsandbytes.functional.dequantize_nf4

bitsandbytes.functional.gemv_4bit

bitsandbytes.functional.quantize_4bit

bitsandbytes.functional.quantize_fp4

bitsandbytes.functional.quantize_nf4

class bitsandbytes.functional.QuantState

as_dict

from_dict

动态 8 位量化

bitsandbytes.functional.dequantize_blockwise

bitsandbytes.functional.quantize_blockwise

实用工具

bitsandbytes.functional.get_ptr

bitsandbytes.functional.is_on_gpu