Optimum 文档

使用 Brevitas 进行量化

您正在查看 主分支 版本,需要从源代码安装. 如果你想使用常规的 pip 安装,请查看最新的稳定版本 (v1.23.1).
Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始

使用 Brevitas 进行量化

BrevitasQuantizer

class optimum.amd.BrevitasQuantizer

< >

( model: 模块 model_name_or_path: str )

处理在 huggingface.co/models 上共享的模型的运行时量化过程。

from_pretrained

< >

( model_name_or_path: str subfolder: str = '' revision: Optional = None cache_dir: Optional = None trust_remote_code: bool = False force_download: bool = False local_files_only: bool = False use_auth_token: Union = None device_map: Union = None **model_kwargs )

参数

  • model_name_or_path (Union[str, Path]) — 可以是 Hugging Face Hub 上模型库的模型 ID,也可以是包含模型的本地目录的路径。
  • 子文件夹 (str, 默认为 "") — 如果模型文件位于 Hugging Face Hub 上模型目录/库的子文件夹中,您可以在此处指定子文件夹名称。
  • 版本 (Optional[str], 可选, 默认为 None) — 版本是 要使用的特定模型版本。它可以是分支名称、标签名称或提交 ID。
  • 缓存目录 (Optional[str], 可选) — 如果不使用标准缓存,则指定已缓存下载的预训练模型权重的目录的路径。
  • 信任远程代码 (bool, 默认为 False) — 允许使用模型库中托管的模型的自定义代码。此选项仅应为您信任的库设置,并且您已阅读代码,因为它将在您的本地计算机上执行模型库中存在的任意代码。
  • 强制下载 (bool, 默认为 False) — 是否强制(重新)下载模型权重和配置文
  • 仅本地文件 (Optional[bool], 默认为 False) — 是否只查看本地文件(即,不尝试下载模型)。
  • 使用身份验证令牌 (Optional[str], 默认为 None) — 用作远程文件的 HTTP

加载 BrevitasQuantizer 和模型。

量化

< >

( 量化配置: BrevitasQuantizationConfig 校准数据集: Optional = None )

参数

  • 量化配置 (BrevitasQuantizationConfig) — 用于量化模型的量化配置。
  • 校准数据集 (Optional[List[Dict]], 默认为 None) — 如果量化涉及校准阶段,则需要将此参数指定为模型的输入列表。示例:calibration_dataset = [{"input_ids": torch.tensor([[1, 2, 3, 4]])}, {"input_ids": torch.tensor([[6, 7, 3, 4]])}],这是一个接受 input_ids 作为参数的模型的数据集,并且有两个样本。

根据 quantization_config 使用 Brevitas 量化模型。

BrevitasQuantizationConfig

class optimum.amd.BrevitasQuantizationConfig

< >

( weights_bitwidth: int = 8 activations_bitwidth: Optional = 8 weights_only: bool = False weights_param_method: Literal = 'stats' weights_symmetric: bool = True scale_precision: Literal = 'float_scale' weights_quant_granularity: Literal = 'per_tensor' weights_group_size: Optional = None quantize_zero_point: bool = True activations_param_method: Optional = 'stats' is_static: bool = False activations_symmetric: Optional = False activations_quant_granularity: Optional = 'per_tensor' activations_group_size: Optional = None activations_equalization: Optional = 'cross_layer' apply_weight_equalization: bool = False apply_bias_correction: bool = False apply_gptq: bool = False gptq_act_order: Optional = None device: str = 'auto' layers_to_exclude: Optional = None gpu_device_map: Optional = None cpu_device_map: Optional = None )

参数

  • weights_bitwidth (int, 默认为 8) — 权重量化的位宽。例如,当 weights_bitwidth=8 时,每个权重值将在 8 位上量化。
  • activations_bitwidth (Optional[int], 默认为 8) — 激活量化的位宽。
  • weights_only (bool, 默认为 False) — 如果设置为 True,则仅量化权重,否则还量化激活。
  • weights_param_method (str, 默认为 stats) — 用于估计权重量化参数(比例、零点)的策略。可使用两种策略:
    • "stats": 使用最小值-最大值来估计量化范围。
    • "mse": 使用未量化权重和量化权重之间的均方误差来估计量化范围。
  • weights_symmetric (bool, 默认为 True) — 是否在权重上使用对称量化。
  • scale_precision (str, 默认为 "float_scale") — 对比例的约束精度。可以是 "float_scale"(任意比例),或 "power_of_two_scale"(比例限制为 2 的幂)。
  • weights_quant_granularity (str, 默认为 "per_tensor") — 权重量化的粒度。此参数可以是:
    • "per_tensor": 使用单个比例因子(和可能的零点)对一个权重矩阵进行量化。
    • "per_channel": 权重矩阵的每一列(外维度)都有自己的比例因子(和可能的零点)。
    • "per_group": 权重矩阵的每一列可能具有多个比例因子,按 weight_group_size 分组。
  • weights_group_size (Optional[int], 默认为 None) — 如果 weights_quant_granularity="per_group",则用于权重的组大小。在这种情况下,默认值为 128,否则为 None
  • quantize_zero_point (bool, 默认为 True) — 当设置为 True 时,未量化的值 0.0 恰好可以表示为量化的值:零点。当设置为 False 时,量化范围 [a, b] 恰好可以表示(a 和 b 没有舍入),但未量化的值零不能准确表示。
  • activations_param_method (List[str]) — 用于估计激活量化参数(比例因子、零点)的策略。有两种策略可用:
    • "stats": 使用最小值-最大值来估计量化范围。
    • "mse": 使用未量化激活和量化激活之间的均方误差来估计量化范围。
  • is_static (bool, 默认为 False) — 是否应用静态量化或动态量化。
  • activations_symmetric (bool, 默认为 False) — 是否在激活上使用对称量化。
  • activations_quant_granularity (str, 默认为 "per_tensor") — 激活量化的粒度。此参数可以是 "per_tensor""per_row""per_group"。如果使用静态量化(is_static=True),则只能使用 "per_tensor"
  • activations_group_size (int, 默认为 None) — 如果 activations_quant_granularity="per_group",则用于激活的组大小。在这种情况下,默认值为 64,否则为 None
  • activations_equalization (Optional[str], 默认为 "cross_layer") — 是否应用激活均衡(SmoothQuant)。可能的选项是:
    • None: 不进行激活均衡。
    • "layerwise": 如 https://arxiv.org/abs/2211.10438 中所述,应用 SmoothQuant。激活重缩放将作为乘法节点添加,该节点不会与前面的层融合。
    • "cross_layer": 应用 SmoothQuant,并在可能的情况下将激活重缩放融合到前面的层中(例如:nn.LayerNorm 后面跟着 nn.Linear)。这是通过使用 torch.fx 对模型进行图捕获来实现的。
  • apply_weight_equalization (bool, 默认为 False) — 根据 https://arxiv.org/abs/1906.04721,在层之间应用权重
  • apply_bias_correction (bool, 默认值:False) — 应用偏差校正以补偿量化导致的激活偏差变化。
  • apply_gptq (bool, 默认值:False) — 是否将 GPTQ 算法应用于权重量化。
  • gptq_act_order (Optional[bool], 默认值:None) — 当 apply_gptq=True 时,是否使用激活重新排序(act-order,也称为 desc-act)。 如果 apply_gptq=True,则默认为 False
  • layers_to_exclude (Optional[List], 默认值:None) — 指定不应该量化的层的名称。 这应该只是层名称的最后一部分。 如果同一个名称在多个层中重复出现,则所有这些层都将被排除。 如果留空,则自动识别最后一个线性层并将其排除。

QuantizationConfig 是一个配置类,它处理所有 Brevitas 量化参数。

< > 在 GitHub 上更新