Datasets 文档

加载方法

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

加载方法

用于列出和加载数据集的方法

Datasets

datasets.load_dataset

< >

( path: str name: typing.Optional[str] = None data_dir: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None split: typing.Union[str, datasets.splits.Split, list[str], list[datasets.splits.Split], NoneType] = None cache_dir: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None keep_in_memory: typing.Optional[bool] = None save_infos: bool = False revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None streaming: bool = False num_proc: typing.Optional[int] = None storage_options: typing.Optional[dict] = None **config_kwargs ) DatasetDatasetDict

参数

  • path (str) — 数据集的路径或名称。

    • 如果 path 是 HF Hub 上的数据集仓库(使用 huggingface_hub.list_datasets 列出所有可用的数据集) -> 从仓库中支持的文件(csv、json、parquet 等)加载数据集,例如 'username/dataset_name',一个包含数据文件的 HF Hub 上的数据集仓库。

    • 如果 path 是本地目录 -> 从目录中支持的文件(csv、json、parquet 等)加载数据集,例如 './path/to/directory/with/my/csv/data'

    • 如果 path 是数据集构建器的名称,并且指定了 data_filesdata_dir(可用的构建器有“json”、“csv”、“parquet”、“arrow”、“text”、“xml”、“webdataset”、“imagefolder”、“audiofolder”、“videofolder”) -> 从 data_filesdata_dir 中的文件加载数据集,例如 'parquet'

  • name (str, 可选) — 定义数据集配置的名称。
  • data_dir (str, 可选) — 定义数据集配置的 data_dir。如果为通用构建器(csv、text 等)或 Hub 数据集指定了此参数,且 data_filesNone,则其行为等同于将 os.path.join(data_dir, **) 作为 data_files 传递,以引用目录中的所有文件。
  • data_files (strSequenceMapping, 可选) — 源数据文件的路径。
  • split (Splitstr) — 要加载的数据分割。如果为 `None`,则返回一个包含所有分割的 `dict`(通常是 `datasets.Split.TRAIN` 和 `datasets.Split.TEST`)。如果指定,则返回单个 Dataset。分割可以像 tensorflow-datasets 中那样进行组合和指定。
  • cache_dir (str, 可选) — 读/写数据的目录。默认为 "~/.cache/huggingface/datasets"
  • features (Features, 可选) — 设置此数据集使用的特征类型。
  • download_config (DownloadConfig, 可选) — 特定的下载配置参数。
  • download_mode (DownloadModestr, 默认为 REUSE_DATASET_IF_EXISTS) — 下载/生成模式。
  • verification_mode (VerificationModestr, 默认为 BASIC_CHECKS) — 验证模式,用于确定对下载/处理的数据集信息运行的检查(校验和/大小/分割/...)。

    在 2.9.1 版本中添加

  • keep_in_memory (bool, 默认为 None) — 是否将数据集复制到内存中。如果为 None,除非通过将 datasets.config.IN_MEMORY_MAX_SIZE 设置为非零值来明确启用,否则数据集不会被复制到内存中。更多详情请参见提高性能部分。
  • revision (Versionstr, 可选) — 要加载的数据集版本。由于数据集在 Datasets Hub 上有自己的 git 仓库,默认版本“main”对应于它们的“main”分支。您可以使用数据集仓库的提交 SHA 或 git 标签来指定不同于默认“main”的版本。
  • token (strbool, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer token。如果为 True 或未指定,将从 "~/.huggingface" 获取 token。
  • streaming (bool, 默认为 False) — 如果设置为 True,则不下载数据文件。而是在迭代数据集时逐步流式传输数据。在这种情况下,将返回一个 IterableDatasetIterableDatasetDict

    请注意,流式传输适用于使用支持迭代的数据格式的数据集,例如 txt、csv、jsonl。Json 文件可能会被完全下载。还支持从远程 zip 或 gzip 文件进行流式传输,但其他压缩格式(如 rar 和 xz)尚不支持。tgz 格式不支持流式传输。

  • num_proc (int, 可选, 默认为 None) — 在本地下载和生成数据集时的进程数。默认情况下禁用多处理。

    在 2.7.0 版本中添加

  • storage_options (dict, 可选, 默认为 None) — 实验性。要传递给数据集文件系统后端的键/值对(如果有)。

    在 2.11.0 版本中添加

  • **config_kwargs (附加关键字参数) — 要传递给 BuilderConfig 并在 DatasetBuilder 中使用的关键字参数。

返回

DatasetDatasetDict

  • 如果 `split` 不为 `None`:请求的数据集,
  • 如果 `split` 为 `None`,一个包含每个分割的 DatasetDict

IterableDatasetIterableDatasetDict:如果 `streaming=True`

  • 如果 `split` 不为 `None`,则请求该数据集
  • 如果 `split` 为 `None`,则为一个包含每个分割的 `~datasets.streaming.IterableDatasetDict`。

从 Hugging Face Hub 或本地加载数据集。

您可以在 Hub 或使用 `huggingface_hub.list_datasets` 找到数据集列表。

数据集是一个目录,其中包含一些通用格式(JSON、CSV、Parquet 等)的数据文件,可能还包含通用结构(Webdataset、ImageFolder、AudioFolder、VideoFolder 等)。

此函数在后台执行以下操作

  1. 加载一个数据集构建器

    • 在数据集中找到最常见的数据格式,并选择其关联的构建器(JSON、CSV、Parquet、Webdataset、ImageFolder、AudioFolder 等)。
    • 根据文件和目录名称或 YAML 配置,确定哪个文件进入哪个分割(例如 train/test)。
    • 也可以手动指定 `data_files`,以及要使用的数据集构建器(例如 "parquet")。
  2. 运行数据集构建器

    在一般情况下

    • 如果数据集的数据文件尚未在本地或缓存中可用,则下载它们。

    • 处理数据集并将其缓存在类型化的 Arrow 表中以进行缓存。

      Arrow 表是任意长度、类型化的表,可以存储嵌套对象,并可以映射到 numpy/pandas/python 通用类型。它们可以直接从磁盘访问、加载到 RAM 中,甚至可以通过网络进行流式传输。

    在流式传输的情况下

    • 不下载或缓存任何内容。相反,数据集是惰性加载的,并在迭代时动态流式传输。
  3. 返回一个根据 `split` 中请求的分割构建的数据集(默认为全部)。

示例

从 Hugging Face Hub 加载数据集

>>> from datasets import load_dataset
>>> ds = load_dataset('cornell-movie-review-data/rotten_tomatoes', split='train')

# Load a subset or dataset configuration (here 'sst2')
>>> from datasets import load_dataset
>>> ds = load_dataset('nyu-mll/glue', 'sst2', split='train')

# Manual mapping of data files to splits
>>> data_files = {'train': 'train.csv', 'test': 'test.csv'}
>>> ds = load_dataset('namespace/your_dataset_name', data_files=data_files)

# Manual selection of a directory to load
>>> ds = load_dataset('namespace/your_dataset_name', data_dir='folder_name')

加载本地数据集

# Load a CSV file
>>> from datasets import load_dataset
>>> ds = load_dataset('csv', data_files='path/to/local/my_dataset.csv')

# Load a JSON file
>>> from datasets import load_dataset
>>> ds = load_dataset('json', data_files='path/to/local/my_dataset.json')

加载一个 IterableDataset

>>> from datasets import load_dataset
>>> ds = load_dataset('cornell-movie-review-data/rotten_tomatoes', split='train', streaming=True)

使用 `ImageFolder` 数据集构建器加载图像数据集

>>> from datasets import load_dataset
>>> ds = load_dataset('imagefolder', data_dir='/path/to/images', split='train')

datasets.load_from_disk

< >

( dataset_path: typing.Union[str, bytes, os.PathLike] keep_in_memory: typing.Optional[bool] = None storage_options: typing.Optional[dict] = None ) DatasetDatasetDict

参数

  • dataset_path (path-like) — DatasetDatasetDict 目录的路径(例如 "dataset/train")或远程 URI(例如 "s3://my-bucket/dataset/train"),将从此处加载数据集/数据集字典。
  • keep_in_memory (bool, 默认为 None) — 是否将数据集复制到内存中。如果为 None,除非通过将 datasets.config.IN_MEMORY_MAX_SIZE 设置为非零值来明确启用,否则数据集不会被复制到内存中。更多详情请参见提高性能部分。
  • storage_options (dict, 可选) — 要传递给文件系统后端的键/值对(如果有)。

    在 2.9.0 版本中添加

返回

DatasetDatasetDict

  • 如果 `dataset_path` 是数据集目录的路径:请求的数据集。
  • 如果 `dataset_path` 是数据集字典目录的路径,则为包含每个分割的 DatasetDict

从数据集目录或使用任何 `fsspec.spec.AbstractFileSystem` 实现的文件系统加载先前使用 save_to_disk() 保存的数据集。

示例

>>> from datasets import load_from_disk
>>> ds = load_from_disk('path/to/dataset/directory')

datasets.load_dataset_builder

< >

( path: str name: typing.Optional[str] = None data_dir: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None cache_dir: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None storage_options: typing.Optional[dict] = None **config_kwargs )

参数

  • path (str) — 数据集的路径或名称。

    • 如果 path 是 HF Hub 上的数据集仓库(使用 huggingface_hub.list_datasets 列出所有可用的数据集) -> 从仓库中支持的文件(csv、json、parquet 等)加载数据集构建器,例如 'username/dataset_name',一个包含数据文件的 HF Hub 上的数据集仓库。

    • 如果 path 是本地目录 -> 从目录中支持的文件(csv、json、parquet 等)加载数据集构建器,例如 './path/to/directory/with/my/csv/data'

    • 如果 path 是数据集构建器的名称,并且指定了 data_filesdata_dir(可用的构建器有“json”、“csv”、“parquet”、“arrow”、“text”、“xml”、“webdataset”、“imagefolder”、“audiofolder”、“videofolder”) -> 从 data_filesdata_dir 中的文件加载数据集构建器,例如 'parquet'

  • name (str, 可选) — 定义数据集配置的名称。
  • data_dir (str, 可选) — 定义数据集配置的 data_dir。如果为通用构建器(csv、text 等)或 Hub 数据集指定了此参数,且 data_filesNone,则其行为等同于将 os.path.join(data_dir, **) 作为 data_files 传递,以引用目录中的所有文件。
  • data_files (strSequenceMapping, 可选) — 源数据文件的路径。
  • cache_dir (str, 可选) — 读/写数据的目录。默认为 "~/.cache/huggingface/datasets"
  • features (Features, 可选) — 设置此数据集使用的特征类型。
  • download_config (DownloadConfig, 可选) — 特定的下载配置参数。
  • download_mode (DownloadModestr, 默认为 REUSE_DATASET_IF_EXISTS) — 下载/生成模式。
  • revision (Versionstr, 可选) — 要加载的数据集版本。由于数据集在 Datasets Hub 上有自己的 git 仓库,默认版本“main”对应于它们的“main”分支。您可以使用数据集仓库的提交 SHA 或 git 标签来指定不同于默认“main”的版本。
  • token (strbool, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer token。如果为 True 或未指定,将从 "~/.huggingface" 获取 token。
  • storage_options (dict, 可选, 默认为 None) — 实验性。要传递给数据集文件系统后端的键/值对(如果有)。

    在 2.11.0 版本中添加

  • **config_kwargs (附加关键字参数) — 要传递给 BuilderConfig 并在 DatasetBuilder 中使用的关键字参数。

加载一个数据集构建器,可用于

  • 检查构建数据集所需的一般信息(缓存目录、配置、数据集信息、特征、数据文件等)
  • 在缓存中下载并准备数据集为 Arrow 文件
  • 获取一个流式数据集,无需下载或缓存任何内容

您可以在 Hub 或使用 `huggingface_hub.list_datasets` 找到数据集列表。

数据集是一个目录,其中包含一些通用格式(JSON、CSV、Parquet 等)的数据文件,可能还包含通用结构(Webdataset、ImageFolder、AudioFolder、VideoFolder 等)。

示例

>>> from datasets import load_dataset_builder
>>> ds_builder = load_dataset_builder('cornell-movie-review-data/rotten_tomatoes')
>>> ds_builder.info.features
{'label': ClassLabel(names=['neg', 'pos']),
 'text': Value('string')}

datasets.get_dataset_config_names

< >

( path: str revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None data_files: typing.Union[str, list, dict, NoneType] = None **download_kwargs )

参数

  • path (str) — 数据集仓库的路径。可以是:

    • 包含数据文件的本地数据集目录路径,例如 './dataset/squad'
    • Hugging Face Hub 上的数据集标识符(使用 huggingface_hub.list_datasets 列出所有可用的数据集和 ID),例如 'rajpurkar/squad''nyu-mll/glue''openai/webtext'
  • revision (Union[str, datasets.Version], 可选) — 如果指定,将从此版本的数据集仓库加载数据集模块。默认情况下:

    • 它被设置为库的本地版本。
    • 如果库的本地版本不可用,它也会尝试从 main 分支加载。指定与本地库版本不同的版本可能会导致兼容性问题。
  • download_config (DownloadConfig, 可选) — 特定的下载配置参数。
  • download_mode (DownloadMode or str, 默认为 REUSE_DATASET_IF_EXISTS) — 下载/生成模式。
  • data_files (Union[Dict, List, str], 可选) — 定义数据集配置的 data_files。
  • **download_kwargs (额外的关键字参数) — DownloadConfig 的可选属性,如果提供,将覆盖 download_config 中的属性,例如 token

获取特定数据集的可用配置名称列表。

示例

>>> from datasets import get_dataset_config_names
>>> get_dataset_config_names("nyu-mll/glue")
['cola',
 'sst2',
 'mrpc',
 'qqp',
 'stsb',
 'mnli',
 'mnli_mismatched',
 'mnli_matched',
 'qnli',
 'rte',
 'wnli',
 'ax']

datasets.get_dataset_infos

< >

( path: str data_files: typing.Union[str, list, dict, NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None **config_kwargs )

参数

  • path (str) — 数据集仓库的路径。可以是:

    • 包含数据文件的本地数据集目录路径,例如 './dataset/squad'
    • Hugging Face Hub 上的数据集标识符(使用 huggingface_hub.list_datasets 列出所有可用的数据集和 ID),例如 'rajpurkar/squad''nyu-mll/glue''openai/webtext'
  • revision (Union[str, datasets.Version], 可选) — 如果指定,将从此版本的数据集仓库加载数据集模块。默认情况下:

    • 它被设置为库的本地版本。
    • 如果库的本地版本不可用,它也会尝试从 main 分支加载。指定与本地库版本不同的版本可能会导致兼容性问题。
  • download_config (DownloadConfig, 可选) — 特定的下载配置参数。
  • download_mode (DownloadMode or str, 默认为 REUSE_DATASET_IF_EXISTS) — 下载/生成模式。
  • data_files (Union[Dict, List, str], 可选) — 定义数据集配置的 data_files。
  • token (strbool, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer token。如果为 True 或未指定,将从 "~/.huggingface" 获取 token。
  • **config_kwargs (额外的关键字参数) — builder 类的可选属性,如果提供,将覆盖其属性。

获取有关数据集的元信息,返回一个将配置名称映射到 DatasetInfoDict 的字典。

示例

>>> from datasets import get_dataset_infos
>>> get_dataset_infos('cornell-movie-review-data/rotten_tomatoes')
{'default': DatasetInfo(description="Movie Review Dataset.
 is a dataset of containing 5,331 positive and 5,331 negative processed
ences from Rotten Tomatoes movie reviews...), ...}

datasets.get_dataset_split_names

< >

( path: str config_name: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None **config_kwargs )

参数

  • path (str) — 数据集仓库的路径。可以是:

    • 包含数据文件的本地数据集目录路径,例如 './dataset/squad'
    • Hugging Face Hub 上的数据集标识符(使用 huggingface_hub.list_datasets 列出所有可用的数据集和 ID),例如 'rajpurkar/squad''nyu-mll/glue''openai/webtext'
  • config_name (str, 可选) — 定义数据集配置的名称。
  • data_files (strSequenceMapping, 可选) — 源数据文件的路径。
  • download_config (DownloadConfig, 可选) — 特定的下载配置参数。
  • download_mode (DownloadMode or str, 默认为 REUSE_DATASET_IF_EXISTS) — 下载/生成模式。
  • revision (Version or str, 可选) — 要加载的数据集版本。由于数据集在 Datasets Hub 上有自己的 git 仓库,默认版本“main”对应于它们的“main”分支。您可以使用数据集仓库的 commit SHA 或 git 标签来指定不同于默认“main”的版本。
  • token (strbool, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer token。如果为 True 或未指定,将从 "~/.huggingface" 获取 token。
  • **config_kwargs (额外的关键字参数) — builder 类的可选属性,如果提供,将覆盖其属性。

获取特定配置和数据集的可用拆分列表。

示例

>>> from datasets import get_dataset_split_names
>>> get_dataset_split_names('cornell-movie-review-data/rotten_tomatoes')
['train', 'validation', 'test']

从文件

用于加载数据文件的配置。它们在加载本地文件或数据集仓库时使用

  • 本地文件:load_dataset("parquet", data_dir="path/to/data/dir")
  • 数据集仓库:load_dataset("allenai/c4")

您可以向 load_dataset 传递参数以配置数据加载。例如,您可以指定 sep 参数来定义用于加载数据的 CsvConfig

load_dataset("csv", data_dir="path/to/data/dir", sep="\t")

文本

class datasets.packaged_modules.text.TextConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None chunksize: int = 10485760 keep_linebreaks: bool = False sample_by: str = 'line' )

用于文本文件的 BuilderConfig。

class datasets.packaged_modules.text.Text

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

CSV

class datasets.packaged_modules.csv.CsvConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None sep: str = ',' delimiter: typing.Optional[str] = None header: typing.Union[int, list[int], str, NoneType] = 'infer' names: typing.Optional[list[str]] = None column_names: typing.Optional[list[str]] = None index_col: typing.Union[int, str, list[int], list[str], NoneType] = None usecols: typing.Union[list[int], list[str], NoneType] = None prefix: typing.Optional[str] = None mangle_dupe_cols: bool = True engine: typing.Optional[typing.Literal['c', 'python', 'pyarrow']] = None converters: dict = None true_values: typing.Optional[list] = None false_values: typing.Optional[list] = None skipinitialspace: bool = False skiprows: typing.Union[int, list[int], NoneType] = None nrows: typing.Optional[int] = None na_values: typing.Union[str, list[str], NoneType] = None keep_default_na: bool = True na_filter: bool = True verbose: bool = False skip_blank_lines: bool = True thousands: typing.Optional[str] = None decimal: str = '.' lineterminator: typing.Optional[str] = None quotechar: str = '"' quoting: int = 0 escapechar: typing.Optional[str] = None comment: typing.Optional[str] = None encoding: typing.Optional[str] = None dialect: typing.Optional[str] = None error_bad_lines: bool = True warn_bad_lines: bool = True skipfooter: int = 0 doublequote: bool = True memory_map: bool = False float_precision: typing.Optional[str] = None chunksize: int = 10000 features: typing.Optional[datasets.features.features.Features] = None encoding_errors: typing.Optional[str] = 'strict' on_bad_lines: typing.Literal['error', 'warn', 'skip'] = 'error' date_format: typing.Optional[str] = None )

用于 CSV 的 BuilderConfig。

class datasets.packaged_modules.csv.Csv

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

JSON

class datasets.packaged_modules.json.JsonConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None field: typing.Optional[str] = None use_threads: bool = True block_size: typing.Optional[int] = None chunksize: int = 10485760 newlines_in_values: typing.Optional[bool] = None )

用于 JSON 的 BuilderConfig。

class datasets.packaged_modules.json.Json

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

XML

class datasets.packaged_modules.xml.XmlConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None )

用于 xml 文件的 BuilderConfig。

class datasets.packaged_modules.xml.Xml

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

Parquet

class datasets.packaged_modules.parquet.ParquetConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None batch_size: typing.Optional[int] = None columns: typing.Optional[list[str]] = None features: typing.Optional[datasets.features.features.Features] = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

用于 Parquet 的 BuilderConfig。

class datasets.packaged_modules.parquet.Parquet

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

Arrow

class datasets.packaged_modules.arrow.ArrowConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None )

Arrow的BuilderConfig。

class datasets.packaged_modules.arrow.Arrow

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

SQL

class datasets.packaged_modules.sql.SqlConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None sql: typing.Union[str, ForwardRef('sqlalchemy.sql.Selectable')] = None con: typing.Union[str, ForwardRef('sqlalchemy.engine.Connection'), ForwardRef('sqlalchemy.engine.Engine'), ForwardRef('sqlite3.Connection')] = None index_col: typing.Union[str, list[str], NoneType] = None coerce_float: bool = True params: typing.Union[list, tuple, dict, NoneType] = None parse_dates: typing.Union[list, dict, NoneType] = None columns: typing.Optional[list[str]] = None chunksize: typing.Optional[int] = 10000 features: typing.Optional[datasets.features.features.Features] = None )

SQL的BuilderConfig。

class datasets.packaged_modules.sql.Sql

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

图像

class datasets.packaged_modules.imagefolder.ImageFolderConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

ImageFolder的BuilderConfig。

class datasets.packaged_modules.imagefolder.ImageFolder

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

音频

class datasets.packaged_modules.audiofolder.AudioFolderConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

AudioFolder的Builder Config。

class datasets.packaged_modules.audiofolder.AudioFolder

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

视频

class datasets.packaged_modules.videofolder.VideoFolderConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

ImageFolder的BuilderConfig。

class datasets.packaged_modules.videofolder.VideoFolder

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

Pdf

class datasets.packaged_modules.pdffolder.PdfFolderConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

ImageFolder的BuilderConfig。

class datasets.packaged_modules.pdffolder.PdfFolder

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

WebDataset

class datasets.packaged_modules.webdataset.WebDataset

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

< > 在 GitHub 上更新