数据集文档
加载方法
并获得增强的文档体验
开始
加载方法
列出和加载数据集的方法
数据集
datasets.load_dataset
< source >( path: str name: typing.Optional[str] = None data_dir: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None split: typing.Union[str, datasets.splits.Split, NoneType] = None cache_dir: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None keep_in_memory: typing.Optional[bool] = None save_infos: bool = False revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None streaming: bool = False num_proc: typing.Optional[int] = None storage_options: typing.Optional[dict] = None trust_remote_code: typing.Optional[bool] = None **config_kwargs ) → Dataset or DatasetDict
参数
- path (
str
) — 数据集的路径或名称。-
如果
path
是 HF Hub 上的数据集仓库 (使用huggingface_hub.list_datasets
列出所有可用的数据集) -> 从仓库中支持的文件加载数据集 (csv, json, parquet, 等),例如'username/dataset_name'
,HF Hub 上的数据集仓库,包含数据文件。 -
如果
path
是本地目录 -> 从目录中支持的文件加载数据集 (csv, json, parquet, 等),例如'./path/to/directory/with/my/csv/data'
。 -
如果
path
是数据集构建器的名称,并且指定了data_files
或data_dir
(可用的构建器有 “json”, “csv”, “parquet”, “arrow”, “text”, “xml”, “webdataset”, “imagefolder”, “audiofolder”, “videofolder”) -> 从data_files
或data_dir
中的文件加载数据集,例如'parquet'
。
它也可以指向本地数据集脚本,但不建议这样做。
-
- name (
str
, 可选) — 定义数据集配置的名称。 - data_dir (
str
, 可选) — 定义数据集配置的data_dir
。 如果为通用构建器 (csv, text 等) 或 Hub 数据集指定,且data_files
为None
,则行为等同于传递os.path.join(data_dir, **)
作为data_files
以引用目录中的所有文件。 - data_files (
str
或Sequence
或Mapping
, 可选) — 源数据文件的路径。 - split (
Split
或str
) — 要加载的数据的哪个拆分。 如果为None
,将返回一个包含所有拆分的dict
(通常为datasets.Split.TRAIN
和datasets.Split.TEST
)。 如果给定,将返回单个 Dataset。 拆分可以像 tensorflow-datasets 中那样组合和指定。 - cache_dir (
str
, 可选) — 用于读取/写入数据的目录。 默认为"~/.cache/huggingface/datasets"
。 - features (
Features
, 可选) — 设置用于此数据集的特性类型。 - download_config (DownloadConfig, 可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
, 默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - verification_mode (VerificationMode 或
str
, 默认为BASIC_CHECKS
) — 验证模式,用于确定对下载/处理的数据集信息(校验和/大小/拆分/...)运行的检查。在 2.9.1 版本中添加
- keep_in_memory (
bool
, 默认为None
) — 是否将数据集复制到内存中。如果为None
,则除非通过将datasets.config.IN_MEMORY_MAX_SIZE
设置为非零值显式启用,否则数据集不会复制到内存中。有关更多详细信息,请参阅 提高性能 部分。 - save_infos (
bool
, 默认为False
) — 保存数据集信息(校验和/大小/拆分/...)。 - revision (Version 或
str
, 可选) — 要加载的数据集脚本的版本。由于数据集在 Datasets Hub 上有自己的 git 仓库,默认版本 “main” 对应于它们的 “main” 分支。您可以指定与默认 “main” 不同的版本,方法是使用数据集仓库的提交 SHA 或 git 标签。 - token (
str
或bool
, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer 令牌。如果为True
,或未指定,将从"~/.huggingface"
获取令牌。 - streaming (
bool
, 默认为False
) — 如果设置为True
,则不下载数据文件。相反,它会在迭代数据集时逐步流式传输数据。在这种情况下,将返回 IterableDataset 或 IterableDatasetDict。请注意,流式传输适用于使用支持迭代的数据格式的数据集,例如 txt、csv、jsonl。 Json 文件可能会完全下载。此外,还支持从远程 zip 或 gzip 文件进行流式传输,但尚不支持其他压缩格式,如 rar 和 xz。 tgz 格式不允许流式传输。
- num_proc (
int
, 可选, 默认为None
) — 本地下载和生成数据集时使用的进程数。默认情况下禁用多处理。在 2.7.0 版本中添加
- storage_options (
dict
, 可选, 默认为None
) — 实验性。要传递到数据集文件系统后端(如果有)的键/值对。在 2.11.0 版本中添加
- trust_remote_code (
bool
, 可选, 默认为None
) — 是否允许使用数据集脚本在 Hub 上定义的数据集。此选项应仅对您信任并且已阅读代码的仓库设置为True
,因为它将在您的本地计算机上执行 Hub 上存在的代码。在 2.16.0 版本中添加
在 2.20.0 版本中更改
如果未指定,
trust_remote_code
默认为False
。 - **config_kwargs (附加的关键字参数) — 要传递给
BuilderConfig
并在 DatasetBuilder 中使用的关键字参数。
返回
- 如果
split
不为None
:则请求的数据集, - 如果
split
为None
,则为包含每个拆分的 DatasetDict。
或者 IterableDataset 或 IterableDatasetDict:如果 streaming=True
- 如果
split
不为None
,则请求数据集 - 如果
split
为None
,则为包含每个拆分的~datasets.streaming.IterableDatasetDict
。
从 Hugging Face Hub 或本地数据集加载数据集。
您可以在 Hub 上或使用 huggingface_hub.list_datasets
找到数据集列表。
数据集是一个目录,其中包含通用格式(JSON、CSV、Parquet 等)的一些数据文件,并且可能包含通用结构(Webdataset、ImageFolder、AudioFolder、VideoFolder 等)
此函数在后台执行以下操作
加载数据集构建器
- 查找数据集中最常见的数据格式,并选择与其关联的构建器(JSON、CSV、Parquet、Webdataset、ImageFolder、AudioFolder 等)
- 根据文件和目录名称或 YAML 配置,查找哪个文件进入哪个拆分(例如,训练/测试)
- 也可以手动指定
data_files
以及要使用的数据集构建器(例如 “parquet”)。
运行数据集构建器
在一般情况下
如果数据集的数据文件在本地或缓存中尚不可用,则从数据集中下载数据文件。
在类型化的 Arrow 表中处理和缓存数据集以进行缓存。
Arrow 表是任意长度的类型化表,可以存储嵌套对象,并且可以映射到 numpy/pandas/python 通用类型。它们可以直接从磁盘访问、加载到 RAM 中,甚至可以通过网络流式传输。
在流式传输情况下
- 不下载或缓存任何内容。相反,数据集是延迟加载的,并在迭代时动态流式传输。
从
split
中请求的拆分(默认值:全部)返回构建的数据集。
如果数据集包含数据集脚本,它也可以使用自定义数据集构建器,但此功能主要用于向后兼容。在这种情况下,数据集脚本文件必须以数据集仓库或目录命名,并以 “.py” 结尾。
示例
从 Hugging Face Hub 加载数据集
>>> from datasets import load_dataset
>>> ds = load_dataset('cornell-movie-review-data/rotten_tomatoes', split='train')
# Load a subset or dataset configuration (here 'sst2')
>>> from datasets import load_dataset
>>> ds = load_dataset('nyu-mll/glue', 'sst2', split='train')
# Manual mapping of data files to splits
>>> data_files = {'train': 'train.csv', 'test': 'test.csv'}
>>> ds = load_dataset('namespace/your_dataset_name', data_files=data_files)
# Manual selection of a directory to load
>>> ds = load_dataset('namespace/your_dataset_name', data_dir='folder_name')
加载本地数据集
# Load a CSV file
>>> from datasets import load_dataset
>>> ds = load_dataset('csv', data_files='path/to/local/my_dataset.csv')
# Load a JSON file
>>> from datasets import load_dataset
>>> ds = load_dataset('json', data_files='path/to/local/my_dataset.json')
# Load from a local loading script (not recommended)
>>> from datasets import load_dataset
>>> ds = load_dataset('path/to/local/loading_script/loading_script.py', split='train')
datasets.load_from_disk
< source >( dataset_path: typing.Union[str, bytes, os.PathLike] keep_in_memory: typing.Optional[bool] = None storage_options: typing.Optional[dict] = None ) → Dataset 或 DatasetDict
参数
- dataset_path (
path-like
) — Dataset 或 DatasetDict 目录的路径(例如"dataset/train"
)或远程 URI(例如"s3://my-bucket/dataset/train"
),数据集/数据集字典将从该目录加载。 - keep_in_memory (
bool
, 默认为None
) — 是否将数据集复制到内存中。如果为None
,则除非通过将datasets.config.IN_MEMORY_MAX_SIZE
设置为非零值显式启用,否则数据集不会复制到内存中。有关更多详细信息,请参阅 提高性能 部分。 - storage_options (
dict
, 可选) — 要传递到文件系统后端(如果有)的键/值对。在 2.9.0 版本中添加
返回
- 如果
dataset_path
是数据集目录的路径:则请求的数据集。 - 如果
dataset_path
是数据集字典目录的路径,则为包含每个拆分的 DatasetDict。
加载先前使用 save_to_disk() 从数据集目录或使用 fsspec.spec.AbstractFileSystem
的任何实现的文件系统保存的数据集。
datasets.load_dataset_builder
< source >( path: str name: typing.Optional[str] = None data_dir: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None cache_dir: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None storage_options: typing.Optional[dict] = None trust_remote_code: typing.Optional[bool] = None _require_default_config_name = True **config_kwargs )
参数
- path (
str
) — 数据集的路径或名称。-
如果
path
是 HF hub 上的数据集仓库(使用huggingface_hub.list_datasets
列出所有可用的数据集) -> 从仓库中支持的文件(csv、json、parquet 等)加载数据集构建器,例如'username/dataset_name'
,HF hub 上包含数据文件的数据集仓库。 -
如果
path
是本地目录 -> 从目录中支持的文件(csv、json、parquet 等)加载数据集构建器,例如'./path/to/directory/with/my/csv/data'
。 -
如果
path
是数据集构建器的名称,并且指定了data_files
或data_dir
(可用的构建器为 “json”、“csv”、“parquet”、“arrow”、“text”、“xml”、“webdataset”、“imagefolder”、“audiofolder”、“videofolder”) -> 从data_files
或data_dir
中的文件加载数据集构建器,例如'parquet'
。
它也可以指向本地数据集脚本,但不建议这样做。
-
- name (
str
, 可选) — 定义数据集配置的名称。 - data_dir (
str
, 可选) — 定义数据集配置的data_dir
。如果为通用构建器(csv、文本等)或 Hub 数据集指定了此项,并且data_files
为None
,则行为等同于传递os.path.join(data_dir, **)
作为data_files
以引用目录中的所有文件。 - data_files (
str
或Sequence
或Mapping
, 可选) — 源数据文件的路径。 - cache_dir (
str
, 可选) — 用于读取/写入数据的目录。默认为"~/.cache/huggingface/datasets"
。 - features (Features, 可选) — 设置用于此数据集的特征类型。
- download_config (DownloadConfig, 可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
, 默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - revision (Version 或
str
, 可选) — 要加载的数据集脚本的版本。由于数据集在 Datasets Hub 上有自己的 git 仓库,默认版本 “main” 对应于它们的 “main” 分支。您可以使用数据集仓库的提交 SHA 或 git 标签来指定与默认 “main” 不同的版本。 - token (
str
或bool
, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer 令牌。如果为True
,或未指定,则将从"~/.huggingface"
获取令牌。 - storage_options (
dict
, 可选, 默认为None
) — 实验性功能。要传递给数据集文件系统后端的键/值对(如果有)。在 2.11.0 版本中添加
- trust_remote_code (
bool
, 可选, 默认为None
) — 是否允许使用 Hub 上定义的、使用数据集脚本的数据集。此选项应仅对您信任且已阅读代码的仓库设置为True
,因为它将在您的本地计算机上执行 Hub 上的代码。在 2.16.0 版本中添加
在 2.20.0 版本中更改
如果未指定,
trust_remote_code
默认为False
。 - **config_kwargs (附加的关键字参数) — 要传递给 BuilderConfig 并在 DatasetBuilder 中使用的关键字参数。
加载一个数据集构建器,该构建器可用于
- 检查构建数据集所需的一般信息(缓存目录、配置、数据集信息、特征、数据文件等)
- 在缓存中下载数据集并将其准备为 Arrow 文件
- 获取流式数据集,无需下载或缓存任何内容
您可以在 Hub 上或使用 huggingface_hub.list_datasets
找到数据集列表。
数据集是一个目录,其中包含通用格式(JSON、CSV、Parquet 等)的一些数据文件,并且可能包含通用结构(Webdataset、ImageFolder、AudioFolder、VideoFolder 等)
datasets.get_dataset_config_names
< source >( path: str revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None dynamic_modules_path: typing.Optional[str] = None data_files: typing.Union[str, list, dict, NoneType] = None **download_kwargs )
参数
- path (
str
) — 数据集处理脚本的路径,其中包含数据集构建器。可以是:- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
'./dataset/squad'
或'./dataset/squad/squad.py'
- Hugging Face Hub 上的数据集标识符(使用
huggingface_hub.list_datasets
列出所有可用的数据集和 ID),例如'rajpurkar/squad'
、'nyu-mll/glue'
或'openai/webtext'
- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
- revision (
Union[str, datasets.Version]
, 可选) — 如果指定,数据集模块将从此版本的 datasets 仓库加载。默认情况下:- 它设置为库的本地版本。
- 如果本地版本库中没有,它也会尝试从主分支加载。指定与本地库版本不同的版本可能会导致兼容性问题。
- download_config (DownloadConfig, 可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
, 默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - dynamic_modules_path (
str
, 默认为~/.cache/huggingface/modules/datasets_modules
) — 可选的路径,用于指定动态模块保存的目录。它必须已使用init_dynamic_modules
初始化。默认情况下,数据集存储在datasets_modules
模块中。 - data_files (
Union[Dict, List, str]
, 可选) — 定义数据集配置的数据文件。 - **download_kwargs (附加的关键字参数) — DownloadConfig 的可选属性,如果提供,将覆盖
download_config
中的属性,例如token
。
获取特定数据集的可用配置名称列表。
datasets.get_dataset_infos
< source >( path: str data_files: typing.Union[str, list, dict, NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None **config_kwargs )
参数
- path (
str
) — 数据集处理脚本的路径,其中包含数据集构建器。可以是:- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
'./dataset/squad'
或'./dataset/squad/squad.py'
- Hugging Face Hub 上的数据集标识符(使用
huggingface_hub.list_datasets
列出所有可用的数据集和 ID),例如'rajpurkar/squad'
、'nyu-mll/glue'
或'openai/webtext'
- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
- revision (
Union[str, datasets.Version]
, 可选) — 如果指定,数据集模块将从此版本的 datasets 仓库加载。默认情况下:- 它设置为库的本地版本。
- 如果本地版本库中没有,它也会尝试从主分支加载。指定与本地库版本不同的版本可能会导致兼容性问题。
- download_config (DownloadConfig, 可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
, 默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - data_files (
Union[Dict, List, str]
, 可选) — 定义数据集配置的数据文件。 - token (
str
或bool
, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer 令牌。如果为True
,或未指定,则将从"~/.huggingface"
获取令牌。 - **config_kwargs (附加的关键字参数) — 构建器类的可选属性,如果提供,将覆盖这些属性。
获取关于数据集的元信息,以字典形式返回,字典将配置名称映射到 DatasetInfoDict。
datasets.get_dataset_split_names
< source >( path: str config_name: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None **config_kwargs )
参数
- path (
str
) — 数据集处理脚本的路径,其中包含数据集构建器。可以是以下之一:- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
'./dataset/squad'
或'./dataset/squad/squad.py'
- Hugging Face Hub 上的数据集标识符(使用
huggingface_hub.list_datasets
列出所有可用的数据集和 ID),例如'rajpurkar/squad'
、'nyu-mll/glue'
或'openai/webtext'
- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
- config_name (
str
, 可选) — 定义数据集配置的名称。 - data_files (
str
或Sequence
或Mapping
, 可选) — 源数据文件的路径。 - download_config (DownloadConfig, 可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
, 默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - revision (Version 或
str
, 可选) — 要加载的数据集脚本的版本。由于数据集在 Datasets Hub 上有自己的 git 仓库,默认版本 “main” 对应于它们的 “main” 分支。您可以指定与默认 “main” 不同的版本,方法是使用数据集仓库的提交 SHA 或 git 标签。 - token (
str
或bool
, 可选) — 可选字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer 令牌。如果为True
,或未指定,将从"~/.huggingface"
获取令牌。 - **config_kwargs (附加的关键字参数) — 构建器类的可选属性,如果提供,将覆盖这些属性。
获取特定配置和数据集的可用拆分列表。
来自文件
用于加载数据文件的配置。它们在加载本地文件或数据集仓库时使用
- 本地文件:
load_dataset("parquet", data_dir="path/to/data/dir")
- 数据集仓库:
load_dataset("allenai/c4")
您可以将参数传递给 load_dataset
以配置数据加载。例如,您可以指定 sep
参数来定义用于加载数据的 CsvConfig
load_dataset("csv", data_dir="path/to/data/dir", sep="\t")
文本
class datasets.packaged_modules.text.TextConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None chunksize: int = 10485760 keep_linebreaks: bool = False sample_by: str = 'line' )
用于文本文件的 BuilderConfig。
class datasets.packaged_modules.text.Text
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
CSV
class datasets.packaged_modules.csv.CsvConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None sep: str = ',' delimiter: typing.Optional[str] = None header: typing.Union[int, list[int], str, NoneType] = 'infer' names: typing.Optional[list[str]] = None column_names: typing.Optional[list[str]] = None index_col: typing.Union[int, str, list[int], list[str], NoneType] = None usecols: typing.Union[list[int], list[str], NoneType] = None prefix: typing.Optional[str] = None mangle_dupe_cols: bool = True engine: typing.Optional[typing.Literal['c', 'python', 'pyarrow']] = None converters: dict = None true_values: typing.Optional[list] = None false_values: typing.Optional[list] = None skipinitialspace: bool = False skiprows: typing.Union[int, list[int], NoneType] = None nrows: typing.Optional[int] = None na_values: typing.Union[str, list[str], NoneType] = None keep_default_na: bool = True na_filter: bool = True verbose: bool = False skip_blank_lines: bool = True thousands: typing.Optional[str] = None decimal: str = '.' lineterminator: typing.Optional[str] = None quotechar: str = '"' quoting: int = 0 escapechar: typing.Optional[str] = None comment: typing.Optional[str] = None encoding: typing.Optional[str] = None dialect: typing.Optional[str] = None error_bad_lines: bool = True warn_bad_lines: bool = True skipfooter: int = 0 doublequote: bool = True memory_map: bool = False float_precision: typing.Optional[str] = None chunksize: int = 10000 features: typing.Optional[datasets.features.features.Features] = None encoding_errors: typing.Optional[str] = 'strict' on_bad_lines: typing.Literal['error', 'warn', 'skip'] = 'error' date_format: typing.Optional[str] = None )
用于 CSV 的 BuilderConfig。
class datasets.packaged_modules.csv.Csv
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
JSON
class datasets.packaged_modules.json.JsonConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None field: typing.Optional[str] = None use_threads: bool = True block_size: typing.Optional[int] = None chunksize: int = 10485760 newlines_in_values: typing.Optional[bool] = None )
JSON 的 BuilderConfig。
class datasets.packaged_modules.json.Json
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
XML
class datasets.packaged_modules.xml.XmlConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None )
xml 文件的 BuilderConfig。
class datasets.packaged_modules.xml.Xml
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
Parquet
class datasets.packaged_modules.parquet.ParquetConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None batch_size: typing.Optional[int] = None columns: typing.Optional[list[str]] = None features: typing.Optional[datasets.features.features.Features] = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )
Parquet 的 BuilderConfig。
class datasets.packaged_modules.parquet.Parquet
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
Arrow
class datasets.packaged_modules.arrow.ArrowConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None )
Arrow 的 BuilderConfig。
class datasets.packaged_modules.arrow.Arrow
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
SQL
class datasets.packaged_modules.sql.SqlConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None sql: typing.Union[str, ForwardRef('sqlalchemy.sql.Selectable')] = None con: typing.Union[str, ForwardRef('sqlalchemy.engine.Connection'), ForwardRef('sqlalchemy.engine.Engine'), ForwardRef('sqlite3.Connection')] = None index_col: typing.Union[str, list[str], NoneType] = None coerce_float: bool = True params: typing.Union[list, tuple, dict, NoneType] = None parse_dates: typing.Union[list, dict, NoneType] = None columns: typing.Optional[list[str]] = None chunksize: typing.Optional[int] = 10000 features: typing.Optional[datasets.features.features.Features] = None )
SQL 的 BuilderConfig。
class datasets.packaged_modules.sql.Sql
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
图像
class datasets.packaged_modules.imagefolder.ImageFolderConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )
ImageFolder 的 BuilderConfig。
class datasets.packaged_modules.imagefolder.ImageFolder
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
音频
class datasets.packaged_modules.audiofolder.AudioFolderConfig
< source >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )
AudioFolder 的 Builder Config。
class datasets.packaged_modules.audiofolder.AudioFolder
< source >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
视频
类 datasets.packaged_modules.videofolder.VideoFolderConfig
< 源代码 >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )
ImageFolder 的 BuilderConfig。
类 datasets.packaged_modules.videofolder.VideoFolder
< 源代码 >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
类 datasets.packaged_modules.pdffolder.PdfFolderConfig
< 源代码 >( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )
ImageFolder 的 BuilderConfig。
类 datasets.packaged_modules.pdffolder.PdfFolder
< 源代码 >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )
WebDataset
类 datasets.packaged_modules.webdataset.WebDataset
< 源代码 >( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )