Optimum 文档

文本到(RGB,深度)

您正在查看 主分支 版本,需要从源代码安装。如果您希望使用常规 pip 安装,请查看最新稳定版本(v1.23.1)。
Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

文本到(RGB,深度)

LDM3D 在 Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox、Alex Redden、Will Saxton、Jean Yu、Estelle Aflalo、Shao-Yen Tseng、Fabio Nonato、Matthias Muller 和 Vasudev Lal 的论文 LDM3D:用于 3D 的潜在扩散模型 中提出。与仅生成图像的现有文本到图像扩散模型(如 稳定扩散)不同,LDM3D 根据给定的文本提示生成图像和深度图。在几乎相同数量的参数下,LDM3D 能够创建可以压缩 RGB 图像和深度图的潜在空间。

论文摘要如下:

这篇研究论文提出了一种用于 3D 的潜在扩散模型 (LDM3D),该模型根据给定的文本提示生成图像和深度图数据,允许用户根据文本提示生成 RGBD 图像。LDM3D 模型在包含 RGB 图像、深度图和标题的元组数据集上进行了微调,并通过大量实验进行了验证。我们还开发了一个名为 DepthFusion 的应用程序,它使用生成的 RGB 图像和深度图,利用 TouchDesigner 创建身临其境且交互式的 360 度视角体验。这项技术有可能改变从娱乐和游戏到建筑和设计的各个行业。总的来说,本文对生成式 AI 和计算机视觉领域做出了重大贡献,并展示了 LDM3D 和 DepthFusion 彻底改变内容创作和数字体验的潜力。可以在 此网址 找到总结该方法的简短视频。

如何生成 RGB 和深度图像?

要在 Gaudi 上使用稳定扩散 LDM3D 生成 RGB 和深度图像,您需要实例化两个实例

  • 使用 GaudiStableDiffusionLDM3DPipeline 的管道。此管道支持文本到(rgb,深度)生成
  • 使用 GaudiDDIMScheduler 的调度程序。此调度程序已针对 Gaudi 进行了优化。

初始化管道时,您必须指定 use_habana=True 以将其部署到 HPU 上。此外,为了获得尽可能快的生成速度,您应该使用 use_hpu_graphs=True 启用**HPU 图**。最后,您需要指定一个 Gaudi 配置,该配置可以从 Hugging Face Hub 下载。

from optimum.habana.diffusers import GaudiDDIMScheduler, GaudiStableDiffusionLDM3DPipeline
from optimum.habana.utils import set_seed

model_name = "Intel/ldm3d-4c"

scheduler = GaudiDDIMScheduler.from_pretrained(model_name, subfolder="scheduler")

set_seed(42)

pipeline = GaudiStableDiffusionLDM3DPipeline.from_pretrained(
    model_name,
    scheduler=scheduler,
    use_habana=True,
    use_hpu_graphs=True,
    gaudi_config="Habana/stable-diffusion",
)
outputs = pipeline(
    prompt=["High quality photo of an astronaut riding a horse in space"],
    num_images_per_prompt=1,
    batch_size=1,
    output_type="pil",
    num_inference_steps=40,
    guidance_scale=5.0,
    negative_prompt=None
)


rgb_image, depth_image = outputs.rgb, outputs.depth
rgb_image[0].save("astronaut_ldm3d_rgb.png")
depth_image[0].save("astronaut_ldm3d_depth.png")
< > 在 GitHub 上更新