构建器类

构建器

🤗 Datasets 在数据集构建过程中依赖两个主要类：DatasetBuilder 和 BuilderConfig。

class datasets.DatasetBuilder

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

参数

cache_dir (str, 可选) — 用于缓存数据的目录。默认为 "~/.cache/huggingface/datasets"。
dataset_name (str, 可选) — 数据集的名称，如果与构建器名称不同。对于打包的构建器（如 csv、imagefolder、audiofolder 等）很有用，以反映使用相同打包构建器的数据集之间的差异。
config_name (str, 可选) — 数据集配置的名称。它会影响在磁盘上生成的数据。不同的配置将有各自的子目录和版本。如果未提供，则使用默认配置（如果存在）。

2.3.0 版本新增

参数 `name` 已重命名为 `config_name`。
hash (str, 可选) — 特定于数据集构建器代码的哈希值。用于在数据集构建器代码更新时更新缓存目录（以避免重用旧数据）。典型的缓存目录（在 `self._relative_data_dir` 中定义）是 `name/version/hash/`。
base_path (str, 可选) — 用于下载文件的相对路径的基础路径。这可以是一个远程 URL。
features (Features, 可选) — 用于此数据集的特征类型。例如，它可以用于更改数据集的 Features 类型。
token (str or bool, 可选) — 用于 Datasets Hub 上远程文件的 Bearer token 的字符串或布尔值。如果为 `True`，将从 `~/.huggingface` 获取 token。
repo_id (str, 可选) — 数据集仓库的 ID。用于区分名称相同但来自不同命名空间的构建器，例如 "rajpurkar/squad" 和 "lhoestq/squad" 仓库 ID。在后者中，构建器名称将是 "lhoestq___squad"。
data_files (str or Sequence or Mapping, 可选) — 源数据文件的路径。适用于需要用户指定数据文件的构建器，如 "csv" 或 "json"。它们可以是本地文件或远程文件。为方便起见，您可以使用 `DataFilesDict`。
data_dir (str, 可选) — 包含源数据文件的目录路径。仅在未传递 `data_files` 时使用，在这种情况下，它等同于将 `os.path.join(data_dir, "**")` 作为 `data_files` 传递。对于需要手动下载的构建器，它必须是包含手动下载数据的本地目录的路径。
storage_options (dict, 可选) — 要传递给数据集文件系统后端的键/值对（如果有）。
writer_batch_size (int, 可选) — ArrowWriter 使用的批次大小。它定义了在写入前保存在内存中的样本数量，也定义了 Arrow 块的长度。`None` 表示 ArrowWriter 将使用其默认值。
**config_kwargs (额外的关键字参数) — 要传递给相应构建器配置类的关键字参数，设置在类属性 DatasetBuilder.BUILDER_CONFIG_CLASS 上。构建器配置类是 BuilderConfig 或其子类。

所有数据集的抽象基类。

DatasetBuilder 有 3 个关键方法

DatasetBuilder.info：记录数据集信息，包括特征名称、类型、形状、版本、拆分、引用等。
DatasetBuilder.download_and_prepare()：下载源数据并将其写入磁盘。
DatasetBuilder.as_dataset()：生成一个 Dataset。

一些 `DatasetBuilder` 通过定义一个 `BuilderConfig` 子类并在构造时接受一个配置对象（或名称），来提供数据集的多个变体。可配置的数据集在 `DatasetBuilder.builder_configs()` 中提供了一组预定义的配置。

as_dataset

< 源码 >

( split: typing.Union[str, datasets.splits.Split, list[str], list[datasets.splits.Split], NoneType] = None run_post_process = True verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None in_memory = False )

参数

split (datasets.Split) — 返回哪个数据子集。
run_post_process (bool, 默认为 True) — 是否运行后处理数据集转换和/或添加索引。
verification_mode (VerificationMode 或 str，默认为 BASIC_CHECKS) — 验证模式，确定对已下载/处理的数据集信息（校验和/大小/拆分/…）运行哪些检查。

2.9.1 版本新增
in_memory (bool, 默认为 False) — 是否将数据复制到内存中。

返回指定拆分的数据集。

示例

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder('cornell-movie-review-data/rotten_tomatoes')
>>> builder.download_and_prepare()
>>> ds = builder.as_dataset(split='train')
>>> ds
Dataset({
    features: ['text', 'label'],
    num_rows: 8530
})

download_and_prepare

< 源码 >

( output_dir: typing.Optional[str] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None dl_manager: typing.Optional[datasets.download.download_manager.DownloadManager] = None base_path: typing.Optional[str] = None file_format: str = 'arrow' max_shard_size: typing.Union[str, int, NoneType] = None num_proc: typing.Optional[int] = None storage_options: typing.Optional[dict] = None **download_and_prepare_kwargs )

参数

output_dir (str, 可选) — 数据集的输出目录。默认为此构建器的 `cache_dir`，该目录默认位于 `~/.cache/huggingface/datasets` 内部。

2.5.0 版本新增
download_config (DownloadConfig, 可选) — 特定的下载配置参数。
download_mode (DownloadMode 或 str, 可选) — 选择下载/生成模式，默认为 `REUSE_DATASET_IF_EXISTS`。
verification_mode (VerificationMode 或 str，默认为 BASIC_CHECKS) — 验证模式，确定对已下载/处理的数据集信息（校验和/大小/拆分/…）运行哪些检查。

2.9.1 版本新增
dl_manager (DownloadManager, 可选) — 要使用的特定 `DownloadManager`。
base_path (str, 可选) — 用于下载文件的相对路径的基础路径。这可以是一个远程 URL。如果未指定，将使用 `base_path` 属性 (`self.base_path`) 的值。
file_format (str, 可选) — 数据集将写入的数据文件的格式。支持的格式：“arrow”、“parquet”。默认为 “arrow” 格式。如果格式为 “parquet”，则图像和音频数据将嵌入到 Parquet 文件中，而不是指向本地文件。

2.5.0 版本新增
max_shard_size (Union[str, int], 可选) — 每个分片写入的最大字节数，默认为 “500MB”。该大小基于未压缩的数据大小，因此在实践中，由于 Parquet 压缩等原因，您的分片文件可能会小于 `max_shard_size`。

2.5.0 版本新增
num_proc (int, 可选，默认为 None) — 在本地下载和生成数据集时的进程数。默认情况下禁用多进程。

2.7.0 版本新增
storage_options (dict, 可选) — 要传递给缓存文件系统后端的键/值对（如果有）。

2.5.0 版本新增
**download_and_prepare_kwargs (附加关键字参数) — 关键字参数。

下载并准备数据集以供读取。

示例

将数据集下载并准备为可以使用 `builder.as_dataset()` 加载为 Dataset 的 Arrow 文件。

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare()

在本地将数据集下载并准备为分片的 Parquet 文件。

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare("./output_dir", file_format="parquet")

将数据集下载并准备为云存储中的分片 Parquet 文件。

>>> from datasets import load_dataset_builder
>>> storage_options = {"key": aws_access_key_id, "secret": aws_secret_access_key}
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare("s3://my-bucket/my_rotten_tomatoes", storage_options=storage_options, file_format="parquet")

get_imported_module_dir

< 源码 >

( )

返回此类或其子类的模块路径。

class datasets.GeneratorBasedBuilder

< 源码 >

基于字典生成器进行数据生成的数据集的基类。

`GeneratorBasedBuilder` 是一个便利类，它抽象了 `DatasetBuilder` 的大部分数据写入和读取工作。它期望子类实现跨数据集拆分的特征字典生成器 (`_split_generators`)。详情请参阅方法文档字符串。

class datasets.ArrowBasedBuilder

< 源码 >

基于 Arrow 加载函数（CSV/JSON/Parquet）进行数据生成的数据集的基类。

class datasets.BuilderConfig

< 源码 >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None )

参数

name (str, 默认为 `default`) — 配置的名称。
version (Version 或 str, 默认为 `0.0.0`) — 配置的版本。
data_dir (str, 可选) — 包含源数据的目录路径。
data_files (str 或 Sequence 或 Mapping, 可选) — 源数据文件的路径。
description (str, 可选) — 对配置的人类可读描述。

用于 `DatasetBuilder` 数据配置的基类。

具有数据配置选项的 `DatasetBuilder` 子类应继承 `BuilderConfig` 并添加自己的属性。

	下载	数据集
`REUSE_DATASET_IF_EXISTS` (默认)	重用	重用
`REUSE_CACHE_IF_EXISTS`	重用	新的
`FORCE_REDOWNLOAD`	新的	新的

	验证检查
`ALL_CHECKS`	分割检查，在 GeneratorBuilder 情况下生成的键的唯一性
	以及下载文件的有效性（文件数量、校验和等）
`BASIC_CHECKS` (默认)	与 `ALL_CHECKS` 相同，但不检查下载的文件
`NO_CHECKS`	无

数据集

构建器类

构建器

class datasets.DatasetBuilder

as_dataset

download_and_prepare

get_imported_module_dir

class datasets.GeneratorBasedBuilder

class datasets.ArrowBasedBuilder

class datasets.BuilderConfig

create_config_id

下载

class datasets.DownloadManager

download

download_and_extract

extract

iter_archive

iter_files

class datasets.StreamingDownloadManager

download

download_and_extract

extract

iter_archive

iter_files

class datasets.DownloadConfig

class datasets.DownloadMode

验证

class datasets.VerificationMode

分割

class datasets.SplitGenerator

class datasets.Split

class datasets.NamedSplit

class datasets.NamedSplitAll

class datasets.ReadInstruction

from_spec

to_absolute

Version

class datasets.Version