3D 机器学习课程文档

管道

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

管道

Open In Colab

在我们的案例中,我们将使用预训练的管道

import torch
from diffusers import DiffusionPipeline

multi_view_diffusion_pipeline = DiffusionPipeline.from_pretrained(
    "dylanebert/multi-view-diffusion",
    custom_pipeline="dylanebert/multi-view-diffusion",
    torch_dtype=torch.float16,
    trust_remote_code=True,
).to("cuda")

模型名称为 dylanebert/multi-view-diffusion,是 ashawkey/mvdream-sd2.1-diffusers 的镜像。对于任何预训练模型,您都可以在 Hugging Face Hub 上找到模型卡片,地址为 https://huggingface.co/<model-name>,其中包含有关模型的信息。

在我们的案例中,我们还需要加载自定义管道(也在 dylanebert/multi-view-diffusion 中)以使用模型。这是因为 diffusers 没有官方支持 3D。因此,出于本课程的目的,我将模型包装在一个自定义管道中,允许您将其用于 3D 任务。

加载图像

import requests
from PIL import Image
from io import BytesIO


image_url = "https://huggingface.co/datasets/dylanebert/3d-arena/resolve/main/inputs/images/a_cat_statue.jpg"
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))
image

Cat Statue

使用此代码,我们加载并显示著名的 猫雕像,用于图像到 3D 演示。

运行管道

import numpy as np

def create_image_grid(images):
    images = [Image.fromarray((img * 255).astype("uint8")) for img in images]

    width, height = images[0].size
    grid_img = Image.new("RGB", (2 * width, 2 * height))

    grid_img.paste(images[0], (0, 0))
    grid_img.paste(images[1], (width, 0))
    grid_img.paste(images[2], (0, height))
    grid_img.paste(images[3], (width, height))

    return grid_img

image = np.array(image, dtype=np.float32) / 255.0
images = multi_view_diffusion_pipeline("", image, guidance_scale=5, num_inference_steps=30, elevation=0)

create_image_grid(images)

最后,我们对图像运行管道。

create_image_grid 函数不是管道的一部分。它只是一个辅助函数,用于以网格形式显示结果。

要运行管道,我们只需通过将其转换为标准化的 NumPy 数组来准备图像

image = np.array(image, dtype=np.float32) / 255.0

然后,我们将它传递给管道

images = multi_view_diffusion_pipeline("", image, guidance_scale=5, num_inference_steps=30, elevation=0)

其中参数 guidance_scalenum_inference_stepselevation 是特定于多视角扩散模型的。

Multi-view Cats

结论

恭喜!您已运行了一个多视角扩散管道。

现在如何托管您自己的演示?

< > 更新 在 GitHub 上