序列化

huggingface_hub 提供了以标准化方式保存和加载 ML 模型权重的辅助工具。库的这一部分仍在开发中，将在未来的版本中得到改进。目标是协调 Hub 中权重保存和加载的方式，既要消除跨库的代码重复，又要建立一致的约定。

DDUF 文件格式

DDUF 是一种为扩散模型设计的文件格式。它允许将运行模型的所有信息保存在单个文件中。这项工作受到 GGUF 格式的启发。huggingface_hub 提供了保存和加载 DDUF 文件的辅助工具，确保文件格式得到遵守。

这是解析器的早期版本。API 和实现可能会在不久的将来发生变化。

解析器目前只进行非常少的验证。有关文件格式的更多详细信息，请查看 https://github.com/huggingface/huggingface.js/tree/main/packages/dduf。

如何编写 DDUF 文件？

以下是如何使用 export_folder_as_dduf() 导出包含扩散模型不同部分的文件夹：

# Export a folder as a DDUF file
>>> from huggingface_hub import export_folder_as_dduf
>>> export_folder_as_dduf("FLUX.1-dev.dduf", folder_path="path/to/FLUX.1-dev")

为了获得更大的灵活性，您可以使用 export_entries_as_dduf() 并传递要包含在最终 DDUF 文件中的文件列表

# Export specific files from the local disk.
>>> from huggingface_hub import export_entries_as_dduf
>>> export_entries_as_dduf(
...     dduf_path="stable-diffusion-v1-4-FP16.dduf",
...     entries=[ # List entries to add to the DDUF file (here, only FP16 weights)
...         ("model_index.json", "path/to/model_index.json"),
...         ("vae/config.json", "path/to/vae/config.json"),
...         ("vae/diffusion_pytorch_model.fp16.safetensors", "path/to/vae/diffusion_pytorch_model.fp16.safetensors"),
...         ("text_encoder/config.json", "path/to/text_encoder/config.json"),
...         ("text_encoder/model.fp16.safetensors", "path/to/text_encoder/model.fp16.safetensors"),
...         # ... add more entries here
...     ]
... )

entries 参数还支持传递路径或字节的可迭代对象。如果您有一个已加载的模型，并希望直接将其序列化为 DDUF 文件，而不是必须先将每个组件序列化到磁盘，然后再序列化为 DDUF 文件，这将非常有用。以下是如何将 StableDiffusionPipeline 序列化为 DDUF 的示例

# Export state_dicts one by one from a loaded pipeline 
>>> from diffusers import DiffusionPipeline
>>> from typing import Generator, Tuple
>>> import safetensors.torch
>>> from huggingface_hub import export_entries_as_dduf
>>> pipe = DiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")
... # ... do some work with the pipeline

>>> def as_entries(pipe: DiffusionPipeline) -> Generator[Tuple[str, bytes], None, None]:
...     # Build a generator that yields the entries to add to the DDUF file.
...     # The first element of the tuple is the filename in the DDUF archive (must use UNIX separator!). The second element is the content of the file.
...     # Entries will be evaluated lazily when the DDUF file is created (only 1 entry is loaded in memory at a time)
...     yield "vae/config.json", pipe.vae.to_json_string().encode()
...     yield "vae/diffusion_pytorch_model.safetensors", safetensors.torch.save(pipe.vae.state_dict())
...     yield "text_encoder/config.json", pipe.text_encoder.config.to_json_string().encode()
...     yield "text_encoder/model.safetensors", safetensors.torch.save(pipe.text_encoder.state_dict())
...     # ... add more entries here

>>> export_entries_as_dduf(dduf_path="stable-diffusion-v1-4.dduf", entries=as_entries(pipe))

注意： 实际上，diffusers 提供了一种直接将 pipeline 序列化为 DDUF 文件的方法。上面的代码片段仅用作示例。

如何读取 DDUF 文件？

>>> import json
>>> import safetensors.torch
>>> from huggingface_hub import read_dduf_file

# Read DDUF metadata
>>> dduf_entries = read_dduf_file("FLUX.1-dev.dduf")

# Returns a mapping filename <> DDUFEntry
>>> dduf_entries["model_index.json"]
DDUFEntry(filename='model_index.json', offset=66, length=587)

# Load model index as JSON
>>> json.loads(dduf_entries["model_index.json"].read_text())
{'_class_name': 'FluxPipeline', '_diffusers_version': '0.32.0.dev0', '_name_or_path': 'black-forest-labs/FLUX.1-dev', 'scheduler': ['diffusers', 'FlowMatchEulerDiscreteScheduler'], 'text_encoder': ['transformers', 'CLIPTextModel'], 'text_encoder_2': ['transformers', 'T5EncoderModel'], 'tokenizer': ['transformers', 'CLIPTokenizer'], 'tokenizer_2': ['transformers', 'T5TokenizerFast'], 'transformer': ['diffusers', 'FluxTransformer2DModel'], 'vae': ['diffusers', 'AutoencoderKL']}

# Load VAE weights using safetensors
>>> with dduf_entries["vae/diffusion_pytorch_model.safetensors"].as_mmap() as mm:
...     state_dict = safetensors.torch.load(mm)

Hub Python 库

序列化

DDUF 文件格式

如何编写 DDUF 文件？

如何读取 DDUF 文件？

辅助函数

huggingface_hub.export_entries_as_dduf

huggingface_hub.export_folder_as_dduf

huggingface_hub.read_dduf_file

class huggingface_hub.DDUFEntry

as_mmap

read_text

错误

class huggingface_hub.errors.DDUFError

class huggingface_hub.errors.DDUFCorruptedFileError

class huggingface_hub.errors.DDUFExportError

class huggingface_hub.errors.DDUFInvalidEntryNameError

保存张量

save_torch_model

huggingface_hub.save_torch_model

save_torch_state_dict

huggingface_hub.save_torch_state_dict

split_tf_state_dict_into_shards

huggingface_hub.split_tf_state_dict_into_shards

split_torch_state_dict_into_shards

huggingface_hub.split_torch_state_dict_into_shards

split_state_dict_into_shards_factory

huggingface_hub.split_state_dict_into_shards_factory

加载张量

load_torch_model

huggingface_hub.load_torch_model

load_state_dict_from_file

huggingface_hub.load_state_dict_from_file

张量助手函数

get_torch_storage_id

huggingface_hub.get_torch_storage_id

get_torch_storage_size

huggingface_hub.get_torch_storage_size