Depth Anything V2
概述
Depth Anything V2 在 同名论文 中由李和杨等人提出。它使用与原始 Depth Anything 模型 相同的架构,但使用合成数据和更大的容量教师模型来实现更精细和更稳健的深度预测。
论文摘要如下
这项工作介绍了 Depth Anything V2。我们没有追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,此版本通过三种关键实践产生了更精细和更稳健的深度预测:1)用合成图像替换所有标记的真实图像,2)扩大教师模型的容量,以及 3)通过大规模伪标记真实图像的桥梁来训练学生模型。与基于 Stable Diffusion 的最新模型相比,我们的模型效率显著更高(速度快 10 倍以上)且更准确。我们提供不同规模的模型(参数从 25M 到 1.3B 不等)以支持广泛的场景。得益于其强大的泛化能力,我们使用度量深度标签对它们进行微调,以获得我们的度量深度模型。除了我们的模型之外,考虑到当前测试集的有限多样性和频繁的噪声,我们构建了一个功能强大的评估基准,包含精确的注释和多样化的场景,以促进未来的研究。
Depth Anything 概述。摘自 原始论文。Depth Anything 模型由 nielsr 贡献。原始代码可以在这里找到 here。
使用示例
使用 Depth Anything V2 的主要方法有两种:使用管道 API,它为您抽象了所有复杂性,或者使用 DepthAnythingForDepthEstimation
类本身。
管道 API
管道允许使用模型只需几行代码
>>> from transformers import pipeline
>>> from PIL import Image
>>> import requests
>>> # load pipe
>>> pipe = pipeline(task="depth-estimation", model="depth-anything/Depth-Anything-V2-Small-hf")
>>> # load image
>>> url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> # inference
>>> depth = pipe(image)["depth"]
自己使用模型
如果你想自己进行预处理和后处理,以下是如何操作
>>> from transformers import AutoImageProcessor, AutoModelForDepthEstimation
>>> import torch
>>> import numpy as np
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("depth-anything/Depth-Anything-V2-Small-hf")
>>> model = AutoModelForDepthEstimation.from_pretrained("depth-anything/Depth-Anything-V2-Small-hf")
>>> # prepare image for the model
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
... predicted_depth = outputs.predicted_depth
>>> # interpolate to original size
>>> prediction = torch.nn.functional.interpolate(
... predicted_depth.unsqueeze(1),
... size=image.size[::-1],
... mode="bicubic",
... align_corners=False,
... )
>>> # visualize the prediction
>>> output = prediction.squeeze().cpu().numpy()
>>> formatted = (output * 255 / np.max(output)).astype("uint8")
>>> depth = Image.fromarray(formatted)
资源
以下是官方 Hugging Face 和社区(用 🌎 表示)提供的资源,可帮助您开始使用 Depth Anything。
- 单目深度估计任务指南
- Depth Anything V2 演示.
- 一个展示 DepthAnythingForDepthEstimation 推理的笔记本,可以在这里找到 这里。 🌎
- 适用于 Apple Silicon 的
small
变体的 Core ML 转换.
如果您有兴趣提交要包含在此处的资源,请随时打开一个 Pull Request,我们会对其进行审核!该资源应该理想地展示一些新内容,而不是重复现有的资源。
DepthAnythingConfig
class transformers.DepthAnythingConfig
< 来源 >( backbone_config = None backbone = None use_pretrained_backbone = False use_timm_backbone = False backbone_kwargs = None patch_size = 14 initializer_range = 0.02 reassemble_hidden_size = 384 reassemble_factors = [4, 2, 1, 0.5] neck_hidden_sizes = [48, 96, 192, 384] fusion_hidden_size = 64 head_in_index = -1 head_hidden_size = 32 depth_estimation_type = 'relative' max_depth = None **kwargs )
参数
- backbone_config (
Union[Dict[str, Any], PretrainedConfig]
, 可选) — 主干模型的配置。仅在is_hybrid
为True
或希望利用 AutoBackbone API 时使用。 - backbone (
str
, 可选) — 当backbone_config
为None
时要使用的主干名称。如果use_pretrained_backbone
为True
,这将从 timm 或 transformers 库加载相应的预训练权重。如果use_pretrained_backbone
为False
,这将加载主干的配置并使用它来使用随机权重初始化主干。 - use_pretrained_backbone (
bool
, 可选,默认值:False
) — 是否为主干使用预训练权重。 - use_timm_backbone (
bool
, 可选,默认值:False
) — 是否使用timm
库作为主干。如果设置为False
,将使用 AutoBackbone API。 - backbone_kwargs (
dict
, 可选) — 传递给 AutoBackbone 的关键字参数,用于从检查点加载,例如{'out_indices': (0, 1, 2, 3)}
。如果设置了backbone_config
,则不能指定。 - patch_size (
int
, 可选,默认值:14) — 从主干特征中提取的补丁大小。 - initializer_range (
float
, 可选,默认值:0.02) — 初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - reassemble_hidden_size (
int
, 可选,默认值:384) — 重新组合层的输入通道数。 - reassemble_factors (
List[int]
, 可选,默认值:[4, 2, 1, 0.5]
) — 重新组合层的上/下采样因子。 - neck_hidden_sizes (
List[str]
, 可选,默认值:[48, 96, 192, 384]
) — 主干特征图要投影到的隐藏大小。 - head_hidden_size (
int
, 可选, 默认为 32) — 深度估计头部第二个卷积层的输出通道数。 - depth_estimation_type (
str
, 可选, 默认为"relative"
) — 要使用的深度估计类型。 可以是["relative", "metric"]
中的一个。 - max_depth (
float
, 可选) — 用于“度量”深度估计头的最大深度。 室内模型应使用 20,室外模型应使用 80。 对于“相对”深度估计,此值将被忽略。
这是用于存储 DepthAnythingModel
配置的配置类。 它用于根据指定参数实例化 DepthAnything 模型,定义模型架构。 使用默认值实例化配置将产生与 DepthAnything LiheYoung/depth-anything-small-hf 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。 阅读 PretrainedConfig 的文档以获取更多信息。
示例
>>> from transformers import DepthAnythingConfig, DepthAnythingForDepthEstimation
>>> # Initializing a DepthAnything small style configuration
>>> configuration = DepthAnythingConfig()
>>> # Initializing a model from the DepthAnything small style configuration
>>> model = DepthAnythingForDepthEstimation(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
DepthAnythingForDepthEstimation
class transformers.DepthAnythingForDepthEstimation
< 源代码 >( config )
参数
- config (DepthAnythingConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法以加载模型权重。
深度 Anything 模型,顶部有一个深度估计头(包含 3 个卷积层),例如用于 KITTI、NYUv2。
此模型是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解与一般使用和行为有关的所有事项。
forward
< 源代码 > ( pixel_values: FloatTensor labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.DepthEstimatorOutput or tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 DPTImageProcessor.call()。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。 - labels (
torch.LongTensor
形状为(batch_size, height, width)
, 可选) — 用于计算损失的真实深度估计图。
返回值
transformers.modeling_outputs.DepthEstimatorOutput 或 tuple(torch.FloatTensor)
A transformers.modeling_outputs.DepthEstimatorOutput 或一个包含各种元素的 torch.FloatTensor
元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),具体取决于配置 (DepthAnythingConfig) 和输入。
-
loss (
torch.FloatTensor
形状为(1,)
, 可选, 当提供labels
时返回) — 分类(或如果 config.num_labels==1 则为回归)损失。 -
predicted_depth (
torch.FloatTensor
形状为(batch_size, height, width)
) — 每个像素的预测深度。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出)形状为(batch_size, num_channels, height, width)
。模型在每一层的输出处的隐藏状态,加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每一层一个)形状为(batch_size, num_heads, patch_size, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The DepthAnythingForDepthEstimation 正向方法,覆盖 __call__
特殊方法。
尽管正向传递的配方需要在此函数中定义,但之后应该调用 Module
实例而不是这个,因为前者负责运行前后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, AutoModelForDepthEstimation
>>> import torch
>>> import numpy as np
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("LiheYoung/depth-anything-small-hf")
>>> model = AutoModelForDepthEstimation.from_pretrained("LiheYoung/depth-anything-small-hf")
>>> # prepare image for the model
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
... predicted_depth = outputs.predicted_depth
>>> # interpolate to original size
>>> prediction = torch.nn.functional.interpolate(
... predicted_depth.unsqueeze(1),
... size=image.size[::-1],
... mode="bicubic",
... align_corners=False,
... )
>>> # visualize the prediction
>>> output = prediction.squeeze().cpu().numpy()
>>> formatted = (output * 255 / np.max(output)).astype("uint8")
>>> depth = Image.fromarray(formatted)