文本到(RGB,深度)
LDM3D 在 Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox、Alex Redden、Will Saxton、Jean Yu、Estelle Aflalo、Shao-Yen Tseng、Fabio Nonato、Matthias Muller 和 Vasudev Lal 的论文 LDM3D:用于 3D 的潜在扩散模型 中提出。与仅生成图像的现有文本到图像扩散模型(如 稳定扩散)不同,LDM3D 根据给定的文本提示生成图像和深度图。在几乎相同数量的参数下,LDM3D 能够创建可以压缩 RGB 图像和深度图的潜在空间。
论文摘要如下:
这篇研究论文提出了一种用于 3D 的潜在扩散模型 (LDM3D),该模型根据给定的文本提示生成图像和深度图数据,允许用户根据文本提示生成 RGBD 图像。LDM3D 模型在包含 RGB 图像、深度图和标题的元组数据集上进行了微调,并通过大量实验进行了验证。我们还开发了一个名为 DepthFusion 的应用程序,它使用生成的 RGB 图像和深度图,利用 TouchDesigner 创建身临其境且交互式的 360 度视角体验。这项技术有可能改变从娱乐和游戏到建筑和设计的各个行业。总的来说,本文对生成式 AI 和计算机视觉领域做出了重大贡献,并展示了 LDM3D 和 DepthFusion 彻底改变内容创作和数字体验的潜力。可以在 此网址 找到总结该方法的简短视频。
如何生成 RGB 和深度图像?
要在 Gaudi 上使用稳定扩散 LDM3D 生成 RGB 和深度图像,您需要实例化两个实例
- 使用
GaudiStableDiffusionLDM3DPipeline
的管道。此管道支持文本到(rgb,深度)生成。 - 使用
GaudiDDIMScheduler
的调度程序。此调度程序已针对 Gaudi 进行了优化。
初始化管道时,您必须指定 use_habana=True
以将其部署到 HPU 上。此外,为了获得尽可能快的生成速度,您应该使用 use_hpu_graphs=True
启用**HPU 图**。最后,您需要指定一个 Gaudi 配置,该配置可以从 Hugging Face Hub 下载。
from optimum.habana.diffusers import GaudiDDIMScheduler, GaudiStableDiffusionLDM3DPipeline
from optimum.habana.utils import set_seed
model_name = "Intel/ldm3d-4c"
scheduler = GaudiDDIMScheduler.from_pretrained(model_name, subfolder="scheduler")
set_seed(42)
pipeline = GaudiStableDiffusionLDM3DPipeline.from_pretrained(
model_name,
scheduler=scheduler,
use_habana=True,
use_hpu_graphs=True,
gaudi_config="Habana/stable-diffusion",
)
outputs = pipeline(
prompt=["High quality photo of an astronaut riding a horse in space"],
num_images_per_prompt=1,
batch_size=1,
output_type="pil",
num_inference_steps=40,
guidance_scale=5.0,
negative_prompt=None
)
rgb_image, depth_image = outputs.rgb, outputs.depth
rgb_image[0].save("astronaut_ldm3d_rgb.png")
depth_image[0].save("astronaut_ldm3d_depth.png")