文本到（RGB，深度）

LDM3D 在 Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox、Alex Redden、Will Saxton、Jean Yu、Estelle Aflalo、Shao-Yen Tseng、Fabio Nonato、Matthias Muller 和 Vasudev Lal 的论文 LDM3D：用于 3D 的潜在扩散模型中提出。与仅生成图像的现有文本到图像扩散模型（如稳定扩散）不同，LDM3D 根据给定的文本提示生成图像和深度图。在几乎相同数量的参数下，LDM3D 能够创建可以压缩 RGB 图像和深度图的潜在空间。

论文摘要如下：

这篇研究论文提出了一种用于 3D 的潜在扩散模型 (LDM3D)，该模型根据给定的文本提示生成图像和深度图数据，允许用户根据文本提示生成 RGBD 图像。LDM3D 模型在包含 RGB 图像、深度图和标题的元组数据集上进行了微调，并通过大量实验进行了验证。我们还开发了一个名为 DepthFusion 的应用程序，它使用生成的 RGB 图像和深度图，利用 TouchDesigner 创建身临其境且交互式的 360 度视角体验。这项技术有可能改变从娱乐和游戏到建筑和设计的各个行业。总的来说，本文对生成式 AI 和计算机视觉领域做出了重大贡献，并展示了 LDM3D 和 DepthFusion 彻底改变内容创作和数字体验的潜力。可以在此网址找到总结该方法的简短视频。

如何生成 RGB 和深度图像？

要在 Gaudi 上使用稳定扩散 LDM3D 生成 RGB 和深度图像，您需要实例化两个实例

使用 GaudiStableDiffusionLDM3DPipeline 的管道。此管道支持文本到（rgb，深度）生成。
使用 GaudiDDIMScheduler 的调度程序。此调度程序已针对 Gaudi 进行了优化。

初始化管道时，您必须指定 use_habana=True 以将其部署到 HPU 上。此外，为了获得尽可能快的生成速度，您应该使用 use_hpu_graphs=True 启用**HPU 图**。最后，您需要指定一个 Gaudi 配置，该配置可以从 Hugging Face Hub 下载。

from optimum.habana.diffusers import GaudiDDIMScheduler, GaudiStableDiffusionLDM3DPipeline
from optimum.habana.utils import set_seed

model_name = "Intel/ldm3d-4c"

scheduler = GaudiDDIMScheduler.from_pretrained(model_name, subfolder="scheduler")

set_seed(42)

pipeline = GaudiStableDiffusionLDM3DPipeline.from_pretrained(
    model_name,
    scheduler=scheduler,
    use_habana=True,
    use_hpu_graphs=True,
    gaudi_config="Habana/stable-diffusion",
)
outputs = pipeline(
    prompt=["High quality photo of an astronaut riding a horse in space"],
    num_images_per_prompt=1,
    batch_size=1,
    output_type="pil",
    num_inference_steps=40,
    guidance_scale=5.0,
    negative_prompt=None
)


rgb_image, depth_image = outputs.rgb, outputs.depth
rgb_image[0].save("astronaut_ldm3d_rgb.png")
depth_image[0].save("astronaut_ldm3d_depth.png")

< > 在 GitHub 上更新

Optimum

文本到（RGB，深度）

如何生成 RGB 和深度图像？