Diffusers 文档

Shap-E

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始

Shap-E

Shap-E 模型在 Shap-E: 生成条件性 3D 隐式函数 中提出,作者是来自 OpenAI 的 Alex Nichol 和 Heewoo Jun。

论文摘要如下:

我们介绍了 Shap-E,一个用于生成 3D 资产的条件生成模型。与最近的 3D 生成模型工作不同,这些工作生成单个输出表示,Shap-E 直接生成隐式函数的参数,这些参数可以渲染为纹理网格和神经辐射场。我们分两个阶段训练 Shap-E:首先,我们训练一个编码器,该编码器将 3D 资产确定性地映射到隐式函数的参数;其次,我们在编码器的输出上训练条件扩散模型。当在大型的 3D 和文本数据对数据集上进行训练时,我们得到的模型能够在几秒钟内生成复杂且多样化的 3D 资产。与 Point-E(一个在点云上的显式生成模型)相比,Shap-E 收敛更快,并达到了可比较的或更好的样本质量,尽管它建模了一个更高维的多表示输出空间。

原始代码库可以在 openai/shap-e 中找到。

参见 跨管道重用组件 部分,了解如何有效地将相同组件加载到多个管道中。

ShapEPipeline

class diffusers.ShapEPipeline

< >

( prior: PriorTransformer text_encoder: CLIPTextModelWithProjection tokenizer: CLIPTokenizer scheduler: HeunDiscreteScheduler shap_e_renderer: ShapERenderer )

参数

  • prior (PriorTransformer) — 用于从文本嵌入中近似图像嵌入的规范 unCLIP 先验。
  • text_encoder (CLIPTextModelWithProjection) — 冻结的文本编码器。
  • tokenizer (CLIPTokenizer) — 用于对文本进行标记的 CLIPTokenizer
  • scheduler (HeunDiscreteScheduler) — 用于与 prior 模型组合生成图像嵌入的调度器。
  • shap_e_renderer (ShapERenderer) — Shap-E 渲染器将生成的潜在变量投影到 MLP 的参数中,以使用 NeRF 渲染方法创建 3D 对象。

用于生成 3D 资产的潜在表示并使用 NeRF 方法进行渲染的管道。

此模型继承自 DiffusionPipeline。检查超类文档以了解为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。

__call__

< >

( prompt: str num_images_per_prompt: int = 1 num_inference_steps: int = 25 generator: Union = None latents: Optional = None guidance_scale: float = 4.0 frame_size: int = 64 output_type: Optional = 'pil' return_dict: bool = True ) ShapEPipelineOutputtuple

参数

  • 提示 (strList[str]) — 指导图像生成的提示或提示。
  • 每个提示的图像数量 (int, 可选, 默认值为 1) — 每个提示要生成的图像数量。
  • 推理步骤数 (int, 可选, 默认值为 25) — 降噪步骤的数量。更多降噪步骤通常会导致更高的图像质量,但会降低推理速度。
  • 生成器 (torch.GeneratorList[torch.Generator], 可选) — 一个 torch.Generator 以使生成确定性。
  • 潜在向量 (torch.Tensor, 可选) — 从高斯分布采样的预生成噪声潜在向量,用作图像生成的输入。可用于使用不同的提示调整相同的生成。如果未提供,则通过使用提供的随机 生成器 采样来生成潜在向量张量。
  • 引导尺度 (float, 可选, 默认值为 4.0) — 较高的引导尺度值鼓励模型生成与文本 提示 密切相关的图像,但会降低图像质量。当 引导尺度 > 1 时,启用引导尺度。
  • 帧大小 (int, 可选, 默认值为 64) — 生成的 3D 输出的每个图像帧的宽度和高度。
  • 输出类型 (str, 可选, 默认值为 "pil") — 生成的图像的输出格式。从 "pil" (PIL.Image.Image)、"np" (np.array)、"latent" (torch.Tensor) 或网格 (MeshDecoderOutput) 中选择。
  • 返回字典 (bool, 可选, 默认值为 True) — 是否返回 ShapEPipelineOutput 而不是普通元组。

返回

ShapEPipelineOutputtuple

如果 return_dictTrue,则返回 ShapEPipelineOutput,否则返回 tuple,其中第一个元素是包含生成图像的列表。

管道用于生成调用的函数。

示例

>>> import torch
>>> from diffusers import DiffusionPipeline
>>> from diffusers.utils import export_to_gif

>>> device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

>>> repo = "openai/shap-e"
>>> pipe = DiffusionPipeline.from_pretrained(repo, torch_dtype=torch.float16)
>>> pipe = pipe.to(device)

>>> guidance_scale = 15.0
>>> prompt = "a shark"

>>> images = pipe(
...     prompt,
...     guidance_scale=guidance_scale,
...     num_inference_steps=64,
...     frame_size=256,
... ).images

>>> gif_path = export_to_gif(images[0], "shark_3d.gif")

ShapEImg2ImgPipeline

diffusers.ShapEImg2ImgPipeline

  • prior (PriorTransformer) — 用于近似从文本嵌入中获得图像嵌入的规范 unCLIP 先验模型。
  • image_encoder (CLIPVisionModel) — 冻结的图像编码器。
  • image_processor (CLIPImageProcessor) — 用于处理图像的 CLIPImageProcessor
  • scheduler (HeunDiscreteScheduler) — 用于结合 prior 模型生成图像嵌入的调度器。
  • shap_e_renderer (ShapERenderer) — Shap-E 渲染器将生成的潜在值投影到 MLP 的参数中,以使用 NeRF 渲染方法创建 3D 对象。

从图像生成 3D 资源的潜在表示并使用 NeRF 方法进行渲染的管道。

此模型继承自 DiffusionPipeline。检查超类文档以了解为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。

__call__

< >

( image: Union num_images_per_prompt: int = 1 num_inference_steps: int = 25 generator: Union = None latents: Optional = None guidance_scale: float = 4.0 frame_size: int = 64 output_type: Optional = 'pil' return_dict: bool = True ) ShapEPipelineOutputtuple

参数

  • image (torch.Tensor, PIL.Image.Image, np.ndarray, List[torch.Tensor], List[PIL.Image.Image], 或 List[np.ndarray]) — 作为起点使用的图像批次的 Image 或张量。也可以接受图像潜在值作为图像,但如果直接传递潜在值,则不会再次进行编码。
  • num_images_per_prompt (int, 可选, 默认为 1) — 每个提示生成的图像数量。
  • num_inference_steps (int, 可选, 默认为 25) — 降噪步骤的数量。更多降噪步骤通常会导致更高质量的图像,但会
  • generator (torch.GeneratorList[torch.Generator], 可选) — 一个 torch.Generator 用于使生成确定性。
  • latents (torch.Tensor, 可选) — 从高斯分布中采样的预生成噪声潜码,用作图像生成的输入。 可以用来用不同的提示调整相同的生成。 如果不提供,则通过使用提供的随机 generator 采样来生成潜码张量。
  • guidance_scale (float, 可选, 默认值为 4.0) — 较高的引导尺度值鼓励模型生成与文本 prompt 密切相关的图像,但以降低图像质量为代价。 当 guidance_scale > 1 时启用引导尺度。
  • frame_size (int, 可选, 默认值为 64) — 生成的 3D 输出中每个图像帧的宽度和高度。
  • output_type (str, 可选, 默认值为 "pil") — 生成的图像的输出格式。 在 "pil" (PIL.Image.Image), "np" (np.array), "latent" (torch.Tensor) 或网格 (MeshDecoderOutput) 中选择。
  • return_dict (bool, 可选, 默认值为 True) — 是否返回 ShapEPipelineOutput 而不是普通元组。

返回

ShapEPipelineOutputtuple

如果 return_dictTrue,则返回 ShapEPipelineOutput,否则返回 tuple,其中第一个元素是包含生成图像的列表。

管道用于生成调用的函数。

示例

>>> from PIL import Image
>>> import torch
>>> from diffusers import DiffusionPipeline
>>> from diffusers.utils import export_to_gif, load_image

>>> device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

>>> repo = "openai/shap-e-img2img"
>>> pipe = DiffusionPipeline.from_pretrained(repo, torch_dtype=torch.float16)
>>> pipe = pipe.to(device)

>>> guidance_scale = 3.0
>>> image_url = "https://hf.co/datasets/diffusers/docs-images/resolve/main/shap-e/corgi.png"
>>> image = load_image(image_url).convert("RGB")

>>> images = pipe(
...     image,
...     guidance_scale=guidance_scale,
...     num_inference_steps=64,
...     frame_size=256,
... ).images

>>> gif_path = export_to_gif(images[0], "corgi_3d.gif")

ShapEPipelineOutput

class diffusers.pipelines.shap_e.pipeline_shap_e.ShapEPipelineOutput

< >

( images: Union )

参数

  • images (torch.Tensor) — 用于 3D 渲染的图像列表。

用于 ShapEPipelineShapEImg2ImgPipeline 的输出类。

< > 在 GitHub 上更新