Datasets 文档

构建器类

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

构建器类

构建器

🤗 Datasets 在数据集构建过程中依赖两个主要类:DatasetBuilderBuilderConfig

class datasets.DatasetBuilder

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

参数

  • cache_dir (str, 可选) — 用于缓存数据的目录。默认为 "~/.cache/huggingface/datasets"
  • dataset_name (str, 可选) — 数据集的名称,如果与构建器名称不同。对于打包的构建器(如 csv、imagefolder、audiofolder 等)很有用,以反映使用相同打包构建器的数据集之间的差异。
  • config_name (str, 可选) — 数据集配置的名称。它会影响在磁盘上生成的数据。不同的配置将有各自的子目录和版本。如果未提供,则使用默认配置(如果存在)。

    2.3.0 版本新增

    参数 `name` 已重命名为 `config_name`。

  • hash (str, 可选) — 特定于数据集构建器代码的哈希值。用于在数据集构建器代码更新时更新缓存目录(以避免重用旧数据)。典型的缓存目录(在 `self._relative_data_dir` 中定义)是 `name/version/hash/`。
  • base_path (str, 可选) — 用于下载文件的相对路径的基础路径。这可以是一个远程 URL。
  • features (Features, 可选) — 用于此数据集的特征类型。例如,它可以用于更改数据集的 Features 类型。
  • token (str or bool, 可选) — 用于 Datasets Hub 上远程文件的 Bearer token 的字符串或布尔值。如果为 `True`,将从 `~/.huggingface` 获取 token。
  • repo_id (str, 可选) — 数据集仓库的 ID。用于区分名称相同但来自不同命名空间的构建器,例如 "rajpurkar/squad" 和 "lhoestq/squad" 仓库 ID。在后者中,构建器名称将是 "lhoestq___squad"。
  • data_files (str or Sequence or Mapping, 可选) — 源数据文件的路径。适用于需要用户指定数据文件的构建器,如 "csv" 或 "json"。它们可以是本地文件或远程文件。为方便起见,您可以使用 `DataFilesDict`。
  • data_dir (str, 可选) — 包含源数据文件的目录路径。仅在未传递 `data_files` 时使用,在这种情况下,它等同于将 `os.path.join(data_dir, "**")` 作为 `data_files` 传递。对于需要手动下载的构建器,它必须是包含手动下载数据的本地目录的路径。
  • storage_options (dict, 可选) — 要传递给数据集文件系统后端的键/值对(如果有)。
  • writer_batch_size (int, 可选) — ArrowWriter 使用的批次大小。它定义了在写入前保存在内存中的样本数量,也定义了 Arrow 块的长度。`None` 表示 ArrowWriter 将使用其默认值。
  • **config_kwargs (额外的关键字参数) — 要传递给相应构建器配置类的关键字参数,设置在类属性 DatasetBuilder.BUILDER_CONFIG_CLASS 上。构建器配置类是 BuilderConfig 或其子类。

所有数据集的抽象基类。

DatasetBuilder 有 3 个关键方法

一些 `DatasetBuilder` 通过定义一个 `BuilderConfig` 子类并在构造时接受一个配置对象(或名称),来提供数据集的多个变体。可配置的数据集在 `DatasetBuilder.builder_configs()` 中提供了一组预定义的配置。

as_dataset

< >

( split: typing.Union[str, datasets.splits.Split, list[str], list[datasets.splits.Split], NoneType] = None run_post_process = True verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None in_memory = False )

参数

  • split (datasets.Split) — 返回哪个数据子集。
  • run_post_process (bool, 默认为 True) — 是否运行后处理数据集转换和/或添加索引。
  • verification_mode (VerificationModestr,默认为 BASIC_CHECKS) — 验证模式,确定对已下载/处理的数据集信息(校验和/大小/拆分/…)运行哪些检查。

    2.9.1 版本新增

  • in_memory (bool, 默认为 False) — 是否将数据复制到内存中。

返回指定拆分的数据集。

示例

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder('cornell-movie-review-data/rotten_tomatoes')
>>> builder.download_and_prepare()
>>> ds = builder.as_dataset(split='train')
>>> ds
Dataset({
    features: ['text', 'label'],
    num_rows: 8530
})

download_and_prepare

< >

( output_dir: typing.Optional[str] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None dl_manager: typing.Optional[datasets.download.download_manager.DownloadManager] = None base_path: typing.Optional[str] = None file_format: str = 'arrow' max_shard_size: typing.Union[str, int, NoneType] = None num_proc: typing.Optional[int] = None storage_options: typing.Optional[dict] = None **download_and_prepare_kwargs )

参数

  • output_dir (str, 可选) — 数据集的输出目录。默认为此构建器的 `cache_dir`,该目录默认位于 `~/.cache/huggingface/datasets` 内部。

    2.5.0 版本新增

  • download_config (DownloadConfig, 可选) — 特定的下载配置参数。
  • download_mode (DownloadModestr, 可选) — 选择下载/生成模式,默认为 `REUSE_DATASET_IF_EXISTS`。
  • verification_mode (VerificationModestr,默认为 BASIC_CHECKS) — 验证模式,确定对已下载/处理的数据集信息(校验和/大小/拆分/…)运行哪些检查。

    2.9.1 版本新增

  • dl_manager (DownloadManager, 可选) — 要使用的特定 `DownloadManager`。
  • base_path (str, 可选) — 用于下载文件的相对路径的基础路径。这可以是一个远程 URL。如果未指定,将使用 `base_path` 属性 (`self.base_path`) 的值。
  • file_format (str, 可选) — 数据集将写入的数据文件的格式。支持的格式:“arrow”、“parquet”。默认为 “arrow” 格式。如果格式为 “parquet”,则图像和音频数据将嵌入到 Parquet 文件中,而不是指向本地文件。

    2.5.0 版本新增

  • max_shard_size (Union[str, int], 可选) — 每个分片写入的最大字节数,默认为 “500MB”。该大小基于未压缩的数据大小,因此在实践中,由于 Parquet 压缩等原因,您的分片文件可能会小于 `max_shard_size`。

    2.5.0 版本新增

  • num_proc (int, 可选,默认为 None) — 在本地下载和生成数据集时的进程数。默认情况下禁用多进程。

    2.7.0 版本新增

  • storage_options (dict, 可选) — 要传递给缓存文件系统后端的键/值对(如果有)。

    2.5.0 版本新增

  • **download_and_prepare_kwargs (附加关键字参数) — 关键字参数。

下载并准备数据集以供读取。

示例

将数据集下载并准备为可以使用 `builder.as_dataset()` 加载为 Dataset 的 Arrow 文件。

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare()

在本地将数据集下载并准备为分片的 Parquet 文件。

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare("./output_dir", file_format="parquet")

将数据集下载并准备为云存储中的分片 Parquet 文件。

>>> from datasets import load_dataset_builder
>>> storage_options = {"key": aws_access_key_id, "secret": aws_secret_access_key}
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare("s3://my-bucket/my_rotten_tomatoes", storage_options=storage_options, file_format="parquet")

get_imported_module_dir

< >

( )

返回此类或其子类的模块路径。

class datasets.GeneratorBasedBuilder

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

基于字典生成器进行数据生成的数据集的基类。

`GeneratorBasedBuilder` 是一个便利类,它抽象了 `DatasetBuilder` 的大部分数据写入和读取工作。它期望子类实现跨数据集拆分的特征字典生成器 (`_split_generators`)。详情请参阅方法文档字符串。

class datasets.ArrowBasedBuilder

< >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

基于 Arrow 加载函数(CSV/JSON/Parquet)进行数据生成的数据集的基类。

class datasets.BuilderConfig

< >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None )

参数

  • name (str, 默认为 `default`) — 配置的名称。
  • version (Versionstr, 默认为 `0.0.0`) — 配置的版本。
  • data_dir (str, 可选) — 包含源数据的目录路径。
  • data_files (strSequenceMapping, 可选) — 源数据文件的路径。
  • description (str, 可选) — 对配置的人类可读描述。

用于 `DatasetBuilder` 数据配置的基类。

具有数据配置选项的 `DatasetBuilder` 子类应继承 `BuilderConfig` 并添加自己的属性。

create_config_id

< >

( config_kwargs: dict custom_features: typing.Optional[datasets.features.features.Features] = None )

配置 ID 用于构建缓存目录。默认情况下,它等于配置名称。但是,配置的名称不足以作为生成数据集的唯一标识符,因为它没有考虑以下因素:

  • 可用于覆盖属性的配置关键字参数
  • 用于写入数据集的自定义特征
  • 用于 json/text/csv/pandas 数据集的 data_files

因此,配置 ID 只是配置名称加上基于这些因素的可选后缀。

下载

class datasets.DownloadManager

< >

( dataset_name: typing.Optional[str] = None data_dir: typing.Optional[str] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None base_path: typing.Optional[str] = None record_checksums = True )

download

< >

( url_or_urls ) str or list or dict

参数

  • url_or_urls (strlistdict) — 要下载的 URL 或 URL 的 listdict。每个 URL 都是一个 str

返回

strlistdict

与给定输入 url_or_urls 匹配的已下载路径。

下载给定的 URL。

默认情况下,下载只使用一个进程。传递自定义的 download_config.num_proc 来改变此行为。

示例

>>> downloaded_files = dl_manager.download('https://storage.googleapis.com/seldon-datasets/sentence_polarity_v1/rt-polaritydata.tar.gz')

download_and_extract

< >

( url_or_urls ) extracted_path(s)

参数

  • url_or_urls (strlistdict) — 要下载和提取的 URL 或 URL 的 listdict。每个 URL 都是一个 str

返回

extracted_path(s)

str,给定 URL 的提取路径。

下载并提取给定的 url_or_urls

大致等同于

extracted_paths = dl_manager.extract(dl_manager.download(url_or_urls))

extract

< >

( path_or_paths ) extracted_path(s)

参数

  • path_or_paths (path 或 listdict) — 要提取的文件的路径。每个路径都是一个 str

返回

extracted_path(s)

str,与给定输入 path_or_paths 匹配的提取路径。

提取给定的路径。

示例

>>> downloaded_files = dl_manager.download('https://storage.googleapis.com/seldon-datasets/sentence_polarity_v1/rt-polaritydata.tar.gz')
>>> extracted_files = dl_manager.extract(downloaded_files)

iter_archive

< >

( path_or_buf: typing.Union[str, _io.BufferedReader] ) tuple[str, io.BufferedReader]

参数

  • path_or_buf (strio.BufferedReader) — 归档路径或归档二进制文件对象。

产生

tuple[str, io.BufferedReader]

迭代归档文件中的文件。

示例

>>> archive = dl_manager.download('https://storage.googleapis.com/seldon-datasets/sentence_polarity_v1/rt-polaritydata.tar.gz')
>>> files = dl_manager.iter_archive(archive)

iter_files

< >

( paths: typing.Union[str, list[str]] ) str

参数

  • paths (strstrlist) — 根路径。

产生

字符串

迭代文件路径。

示例

>>> files = dl_manager.download_and_extract('https://huggingface.co/datasets/beans/resolve/main/data/train.zip')
>>> files = dl_manager.iter_files(files)

class datasets.StreamingDownloadManager

< >

( dataset_name: typing.Optional[str] = None data_dir: typing.Optional[str] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None base_path: typing.Optional[str] = None )

使用“::”分隔符来浏览(可能是远程的)压缩归档文件的下载管理器。与常规的 DownloadManager 相反,downloadextract 方法实际上不下载也不提取数据,而是返回可以使用 xopen 函数打开的路径或 URL,该函数扩展了内置的 open 函数,以从远程文件流式传输数据。

download

< >

( url_or_urls ) url(s)

参数

  • url_or_urls (strlistdict) — 用于流式传输数据的文件 URL。每个 URL 都是一个 str

返回

url(s)

strlistdict),用于流式传输数据的 URL,与给定的输入 url_or_urls 匹配。

规范化用于流式传输数据的文件 URL。这是用于流式传输的 DownloadManager.download 的惰性版本。

示例

>>> downloaded_files = dl_manager.download('https://storage.googleapis.com/seldon-datasets/sentence_polarity_v1/rt-polaritydata.tar.gz')

download_and_extract

< >

( url_or_urls ) url(s)

参数

  • url_or_urls (strlistdict) — 用于流式传输数据的文件 URL。每个 URL 都是一个 str

返回

url(s)

strlistdict),用于流式传输数据的 URL,与给定的输入 url_or_urls 匹配。

准备给定的 url_or_urls 用于流式传输(添加提取协议)。

这是用于流式传输的 DownloadManager.download_and_extract 的惰性版本。

等同于

urls = dl_manager.extract(dl_manager.download(url_or_urls))

extract

< >

( url_or_urls ) url(s)

参数

  • url_or_urls (strlistdict) — 用于流式传输数据的文件 URL。每个 URL 都是一个 str

返回

url(s)

strlistdict),用于流式传输数据的 URL,与给定的输入 url_or_urls 匹配。

为给定的 URL 添加提取协议以进行流式传输。

这是用于流式传输的 DownloadManager.extract 的惰性版本。

示例

>>> downloaded_files = dl_manager.download('https://storage.googleapis.com/seldon-datasets/sentence_polarity_v1/rt-polaritydata.tar.gz')
>>> extracted_files = dl_manager.extract(downloaded_files)

iter_archive

< >

( urlpath_or_buf: typing.Union[str, _io.BufferedReader] ) tuple[str, io.BufferedReader]

参数

  • urlpath_or_buf (strio.BufferedReader) — 归档路径或归档二进制文件对象。

产生

tuple[str, io.BufferedReader]

迭代归档文件中的文件。

示例

>>> archive = dl_manager.download('https://storage.googleapis.com/seldon-datasets/sentence_polarity_v1/rt-polaritydata.tar.gz')
>>> files = dl_manager.iter_archive(archive)

iter_files

< >

( urlpaths: typing.Union[str, list[str]] ) str

参数

  • urlpaths (strstrlist) — 根路径。

产生

字符串

迭代文件。

示例

>>> files = dl_manager.download_and_extract('https://huggingface.co/datasets/beans/resolve/main/data/train.zip')
>>> files = dl_manager.iter_files(files)

class datasets.DownloadConfig

< >

( cache_dir: typing.Union[str, pathlib.Path, NoneType] = None force_download: bool = False resume_download: bool = False local_files_only: bool = False proxies: typing.Optional[dict] = None user_agent: typing.Optional[str] = None extract_compressed_file: bool = False force_extract: bool = False delete_extracted: bool = False extract_on_the_fly: bool = False use_etag: bool = True num_proc: typing.Optional[int] = None max_retries: int = 1 token: typing.Union[str, bool, NoneType] = None storage_options: dict = <factory> download_desc: typing.Optional[str] = None disable_tqdm: bool = False )

参数

  • cache_dir (strPath, 可选) — 指定一个缓存目录来保存文件(覆盖默认的缓存目录)。
  • force_download (bool, 默认为 False) — 如果为 True,即使文件已缓存在缓存目录中,也重新下载该文件。
  • resume_download (bool, 默认为 False) — 如果为 True,并且找到一个未完全接收的文件,则恢复下载。
  • proxies (dict, 可选) —
  • user_agent (str, 可选) — 可选的字符串或字典,将附加到远程请求的用户代理上。
  • extract_compressed_file (bool, 默认为 False) — 如果为 True 且路径指向一个 zip 或 tar 文件,则在归档文件旁边的文件夹中提取压缩文件。
  • force_extract (bool, 默认为 False) — 如果在 extract_compressed_fileTrue 且归档文件已提取的情况下为 True,则重新提取归档文件并覆盖其提取的文件夹。
  • delete_extracted (bool, 默认为 False) — 是否删除(或保留)提取的文件。
  • extract_on_the_fly (bool, 默认为 False) — 如果为 True,则在读取压缩文件时提取它们。
  • use_etag (bool, 默认为 True) — 是否使用 ETag HTTP 响应头来验证缓存的文件。
  • num_proc (int, 可选) — 启动并行下载文件的进程数。
  • max_retries (int, 默认为 1) — HTTP 请求失败时的重试次数。
  • token (strbool, 可选) — 可选的字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer 令牌。如果为 True 或未指定,将从 ~/.huggingface 获取令牌。
  • storage_options (dict, 可选) — 传递给数据集文件系统后端(如果有)的键值对。
  • download_desc (str, 可选) — 在下载文件时与进度条一起显示的描述。
  • disable_tqdm (bool, 默认为 False) — 是否禁用单个文件下载进度条

我们的缓存路径管理器的配置。

class datasets.DownloadMode

< >

( value names = None module = None qualname = None type = None start = 1 )

用于如何处理预先存在的下载和数据的 `Enum`。

默认模式是 `REUSE_DATASET_IF_EXISTS`,如果原始下载和准备好的数据集都存在,则会重用它们。

生成模式

下载 数据集
REUSE_DATASET_IF_EXISTS (默认) 重用 重用
REUSE_CACHE_IF_EXISTS 重用 新的
FORCE_REDOWNLOAD 新的 新的

验证

class datasets.VerificationMode

< >

( value names = None module = None qualname = None type = None start = 1 )

指定要运行哪些验证检查的 `Enum`。

默认模式是 `BASIC_CHECKS`,它只执行基本的检查,以避免在首次生成/下载数据集时速度变慢。

验证模式

验证检查
ALL_CHECKS 分割检查,在 GeneratorBuilder 情况下生成的键的唯一性
以及下载文件的有效性(文件数量、校验和等)
BASIC_CHECKS (默认) 与 `ALL_CHECKS` 相同,但不检查下载的文件
NO_CHECKS

分割

class datasets.SplitGenerator

< >

( name: str gen_kwargs: dict = <factory> )

参数

  • name (str) — 生成器将为其创建样本的 `Split` 的名称。
  • **gen_kwargs (附加关键字参数) — 转发到构建器的 `DatasetBuilder._generate_examples` 方法的关键字参数。

定义生成器的分割信息。

这应该作为 `GeneratorBasedBuilder._split_generators` 的返回值使用。更多信息和使用示例请参见 `GeneratorBasedBuilder._split_generators`。

示例

>>> datasets.SplitGenerator(
...     name=datasets.Split.TRAIN,
...     gen_kwargs={"split_key": "train", "files": dl_manager.download_and_extract(url)},
... )

class datasets.Split

< >

( name )

数据集分割的 `Enum`。

数据集通常被分割成不同的子集,用于训练和评估的各个阶段。

  • TRAIN:训练数据。
  • VALIDATION:验证数据。如果存在,这通常用作迭代模型时的评估数据(例如更改超参数、模型架构等)。
  • TEST:测试数据。这是报告指标的数据。通常您不希望在模型迭代期间使用它,因为您可能会对其过拟合。
  • ALL:所有已定义的数据集分割的并集。

所有分割,包括组合,都继承自 `datasets.SplitBase`。

有关分割的更多信息,请参阅指南

示例

>>> datasets.SplitGenerator(
...     name=datasets.Split.TRAIN,
...     gen_kwargs={"split_key": "train", "files": dl_manager.download_and extract(url)},
... ),
... datasets.SplitGenerator(
...     name=datasets.Split.VALIDATION,
...     gen_kwargs={"split_key": "validation", "files": dl_manager.download_and extract(url)},
... ),
... datasets.SplitGenerator(
...     name=datasets.Split.TEST,
...     gen_kwargs={"split_key": "test", "files": dl_manager.download_and extract(url)},
... )

class datasets.NamedSplit

< >

( name )

对应于命名分割(train、test 等)的描述符。

示例

每个描述符都可以使用加法或切片与其他描述符组合

split = datasets.Split.TRAIN.subsplit(datasets.percent[0:25]) + datasets.Split.TEST

最终的分割将对应于 25% 的训练分割与 100% 的测试分割的合并。

一个分割不能被添加两次,所以以下操作会失败

split = (
        datasets.Split.TRAIN.subsplit(datasets.percent[:25]) +
        datasets.Split.TRAIN.subsplit(datasets.percent[75:])
)  # Error
split = datasets.Split.TEST + datasets.Split.ALL  # Error

切片只能应用一次。所以以下操作是有效的

split = (
        datasets.Split.TRAIN.subsplit(datasets.percent[:25]) +
        datasets.Split.TEST.subsplit(datasets.percent[:50])
)
split = (datasets.Split.TRAIN + datasets.Split.TEST).subsplit(datasets.percent[:50])

但这无效

train = datasets.Split.TRAIN
test = datasets.Split.TEST
split = train.subsplit(datasets.percent[:25]).subsplit(datasets.percent[:25])
split = (train.subsplit(datasets.percent[:25]) + test).subsplit(datasets.percent[:50])

class datasets.NamedSplitAll

< >

( )

对应于所有已定义数据集分割的并集的分割。

class datasets.ReadInstruction

< >

( split_name rounding = None from_ = None to = None unit = None )

用于数据集的读取指令。

示例

# The following lines are equivalent:
ds = datasets.load_dataset('mnist', split='test[:33%]')
ds = datasets.load_dataset('mnist', split=datasets.ReadInstruction.from_spec('test[:33%]'))
ds = datasets.load_dataset('mnist', split=datasets.ReadInstruction('test', to=33, unit='%'))
ds = datasets.load_dataset('mnist', split=datasets.ReadInstruction(
'test', from_=0, to=33, unit='%'))

# The following lines are equivalent:
ds = datasets.load_dataset('mnist', split='test[:33%]+train[1:-1]')
ds = datasets.load_dataset('mnist', split=datasets.ReadInstruction.from_spec(
'test[:33%]+train[1:-1]'))
ds = datasets.load_dataset('mnist', split=(
datasets.ReadInstruction('test', to=33, unit='%') +
datasets.ReadInstruction('train', from_=1, to=-1, unit='abs')))

# The following lines are equivalent:
ds = datasets.load_dataset('mnist', split='test[:33%](pct1_dropremainder)')
ds = datasets.load_dataset('mnist', split=datasets.ReadInstruction.from_spec(
'test[:33%](pct1_dropremainder)'))
ds = datasets.load_dataset('mnist', split=datasets.ReadInstruction(
'test', from_=0, to=33, unit='%', rounding="pct1_dropremainder"))

# 10-fold validation:
tests = datasets.load_dataset(
'mnist',
[datasets.ReadInstruction('train', from_=k, to=k+10, unit='%')
for k in range(0, 100, 10)])
trains = datasets.load_dataset(
'mnist',
[datasets.ReadInstruction('train', to=k, unit='%') + datasets.ReadInstruction('train', from_=k+10, unit='%')
for k in range(0, 100, 10)])

from_spec

< >

( spec )

参数

  • spec (str) — 要读取的数据集划分(split) + 可选的切片(slice) + 当使用百分比作为切片单位时可选的舍入方式。可以使用绝对数值(int)或百分比(int)指定切片。

根据字符串规范创建一个 ReadInstruction 实例。

示例

test: test split.
test + validation: test split + validation split.
test[10:]: test split, minus its first 10 records.
test[:10%]: first 10% records of test split.
test[:20%](pct1_dropremainder): first 10% records, rounded with the pct1_dropremainder rounding.
test[:-5%]+train[40%:60%]: first 95% of test + middle 20% of train.

to_absolute

< >

( name2len )

参数

  • name2len (dict) — 将数据集划分名称与样本数量关联起来的字典。

将指令转换为绝对指令列表。

然后将这些绝对指令相加。

Version

class datasets.Version

< >

( version_str: str description: typing.Optional[str] = None major: typing.Union[str, int, NoneType] = None minor: typing.Union[str, int, NoneType] = None patch: typing.Union[str, int, NoneType] = None )

参数

  • version_str (str) — 数据集版本。
  • description (str) — 描述此版本中的新特性。
  • major (str) —
  • minor (str) —
  • patch (str) —

数据集版本 MAJOR.MINOR.PATCH

示例

>>> VERSION = datasets.Version("1.0.0")
< > 在 GitHub 上更新