Diffusers 文档

视频处理器

Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验

开始使用

视频处理器

VideoProcessor 为视频管道提供了一个统一的 API,用于准备 VAE 编码的输入,并在解码后对输出进行后处理。该类继承自 VaeImageProcessor,因此它包括诸如调整大小、规范化以及 PIL Image、PyTorch 和 NumPy 数组之间的转换等变换。

preprocess_video

diffusers.video_processor.VideoProcessor.preprocess_video

< >

( video height: 可选 = None width: 可选 = None )

参数

  • video (List[PIL.Image], List[List[PIL.Image]], torch.Tensor, np.array, List[torch.Tensor], List[np.array]) — 输入视频。它可以是以下之一:
    • PIL 图像列表。
    • PIL 图像列表的列表。
    • 4D 张量 (每个张量的预期形状为 (num_frames, num_channels, height, width))。
    • 4D NumPy 数组 (每个数组的预期形状为 (num_frames, height, width, num_channels))。
    • 4D 张量列表 (每个张量的预期形状为 (num_frames, num_channels, height, width))。
    • 4D NumPy 数组列表 (每个数组的预期形状为 (num_frames, height, width, num_channels))。
    • 5D NumPy 数组:每个数组的预期形状为 (batch_size, num_frames, height, width, num_channels)
    • 5D 张量:每个数组的预期形状为 (batch_size, num_frames, num_channels, height, width)
  • height (int, 可选, 默认为 None) — 预处理视频帧的高度。如果为 None,将使用 get_default_height_width() 获取默认高度。
  • width (int, 可选, 默认为 None) -- 预处理视频帧的宽度。如果为 None,将使用 get_default_height_width() 获取默认宽度。

预处理输入视频。

diffusers.video_processor.VideoProcessor.postprocess_video

< >

( video: 张量 output_type: str = 'np' )

参数

  • video (torch.Tensor) — 视频张量。
  • output_type (str, 默认为 "np") — 后处理 video 张量的输出类型。

将视频张量转换为帧列表以供导出。

< > 在 GitHub 上更新