Optimum 文档

在 AMD GPU 上使用 Hugging Face 库

您正在查看 主分支 版本,需要从源代码安装。如果您想使用常规的 pip 安装,请查看最新的稳定版本(v1.23.1)。
Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始使用

在 AMD GPU 上使用 Hugging Face 库

Hugging Face 库原生支持 AMD Instinct MI210、MI250 和 MI300 GPU。对于其他支持 ROCm 的 GPU,目前尚未验证支持,但大多数功能预计可以顺利使用。

此处总结了集成。

Flash Attention 2

Flash Attention 2 可通过 ROCm/flash-attention 库在 ROCm 上使用(在 MI210、MI250 和 MI300 上验证过),并且可以在 Transformers 中使用。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-7b")

with torch.device("cuda"):
    model = AutoModelForCausalLM.from_pretrained(
        "tiiuae/falcon-7b",
        torch_dtype=torch.float16,
        use_flash_attention_2=True,
)

我们建议使用 此示例 Dockerfile 在 ROCm 上使用 Flash Attention,或遵循 官方安装说明

GPTQ 量化

可以使用 GPTQ 量化模型在 Transformers 中加载,在后端使用 AutoGPTQ 库

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained("TheBloke/Llama-2-7B-Chat-GPTQ")

with torch.device("cuda"):
    model = AutoModelForCausalLM.from_pretrained(
        "TheBloke/Llama-2-7B-Chat-GPTQ",
        torch_dtype=torch.float16,
    )

ROCm 提供了托管轮子,请查看 安装说明

文本生成推理库

Hugging Face 的 文本生成推理 库 (TGI) 旨在提供低延迟的 LLM 服务,并原生支持 AMD Instinct MI210、MI250 和 MI300 GPU。请参阅 快速入门部分 以获取更多详细信息。

在 ROCm 上使用 TGI 和 AMD Instinct MI210 或 MI250 或 MI300 GPU 就像使用 docker 镜像 ghcr.io/huggingface/text-generation-inference:latest-rocm 一样简单。

MI300 GPU 上文本生成推理的详细基准测试将很快发布。

ONNX Runtime 集成

🤗 Optimum 支持通过 ONNX Runtime 在支持 ROCm 的 AMD GPU 上运行 TransformersDiffusers 模型。这非常简单,只需

from transformers import AutoTokenizer
from optimum.onnxruntime import ORTModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")

ort_model = ORTModelForSequenceClassification.from_pretrained(
  "distilbert-base-uncased-finetuned-sst-2-english",
  export=True,
  provider="ROCMExecutionProvider",
)

inp = tokenizer("Both the music and visual were astounding, not to mention the actors performance.", return_tensors="np")
result = ort_model(**inp)

查看 本指南 中有关支持的更多详细信息。

Bitsandbytes 量化

Bitsandbytes(集成在 HF 的 Transformers文本生成推理 中)目前不正式支持 ROCm。我们正在努力将其在 ROCm 和 Hugging Face 库中进行验证。

同时,高级用户现在可能希望使用 ROCm/bitsandbytes 分支。有关更多详细信息,请参阅 #issuecomment

更多详细信息,请参阅:AutoAWQ

注意:确保您拥有与构建内核时相同的 PyTorch 版本。

< > GitHub 更新