Diffusers 文档

文本引导的深度到图像生成

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

文本引导的深度到图像生成

StableDiffusionDepth2ImgPipeline 允许您传递文本 prompt 和初始图像,以调节新图像的生成。此外,您还可以传递 depth_map 以保留图像结构。如果未提供 depth_map,pipeline 将通过集成的 深度估计模型自动预测深度。

首先创建一个 StableDiffusionDepth2ImgPipeline 的实例

import torch
from diffusers import StableDiffusionDepth2ImgPipeline
from diffusers.utils import load_image, make_image_grid

pipeline = StableDiffusionDepth2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-2-depth",
    torch_dtype=torch.float16,
    use_safetensors=True,
).to("cuda")

现在将您的 prompt 传递给 pipeline。您还可以传递 negative_prompt 以防止某些词语引导图像的生成方式

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
init_image = load_image(url)
prompt = "two tigers"
negative_prompt = "bad, deformed, ugly, bad anatomy"
image = pipeline(prompt=prompt, image=init_image, negative_prompt=negative_prompt, strength=0.7).images[0]
make_image_grid([init_image, image], rows=1, cols=2)
输入 输出
< > 在 GitHub 上更新