加载方法
列出和加载数据集的方法
数据集
datasets.load_dataset
< 源代码 >( path: str name: Optional = None data_dir: Optional = None data_files: Union = None split: Union = None cache_dir: Optional = None features: Optional = None download_config: Optional = None download_mode: Union = None verification_mode: Union = None keep_in_memory: Optional = None save_infos: bool = False revision: Union = None token: Union = None streaming: bool = False num_proc: Optional = None storage_options: Optional = None trust_remote_code: bool = None **config_kwargs ) → Dataset 或 DatasetDict
参数
- path (
str
) — 数据集的路径或名称。根据path
,所使用的构建器来自通用数据集脚本(JSON、CSV、Parquet、文本等)或来自数据集目录内的数据集脚本(Python 文件)。对于本地数据集:
- 如果
path
是一个本地目录(仅包含数据文件) -> 根据目录内容加载通用数据集构建器(csv、json、text 等),例如'./path/to/directory/with/my/csv/data'
。 - 如果
path
是一个本地数据集脚本或包含本地数据集脚本的目录(如果脚本与目录同名) -> 从数据集脚本加载数据集构建器,例如'./dataset/squad'
或'./dataset/squad/squad.py'
。
对于 Hugging Face Hub 上的数据集(使用
huggingface_hub.list_datasets
列出所有可用的数据集)- 如果
path
是 HF Hub 上的数据集存储库(仅包含数据文件) -> 根据存储库内容加载通用数据集构建器(csv、text 等),例如'username/dataset_name'
,HF Hub 上包含数据文件的数据集存储库。 - 如果
path
是 HF Hub 上具有数据集脚本的数据集存储库(如果脚本与目录同名) -> 从数据集存储库中的数据集脚本加载数据集构建器,例如glue
、squad
、'username/dataset_name'
,HF Hub 上包含数据集脚本'dataset_name.py'
的数据集存储库。
- 如果
- name (
str
, 可选) — 定义数据集配置的名称。 - data_dir (
str
, 可选) — 定义数据集配置的data_dir
。如果为通用构建器(csv、text 等)或 Hub 数据集指定,并且data_files
为None
,则行为等同于将os.path.join(data_dir, **)
作为data_files
传递以引用目录中的所有文件。 - data_files (
str
或Sequence
或Mapping
, 可选) — 源数据文件路径。 - split (
Split
或str
) — 要加载的数据的哪个分片。如果为None
,将返回包含所有分片(通常为datasets.Split.TRAIN
和datasets.Split.TEST
)的dict
。如果给出,将返回单个 Dataset。分片可以像在 tensorflow-datasets 中一样组合和指定。 - cache_dir (
str
, 可选) — 读取/写入数据的目录。默认为"~/.cache/huggingface/datasets"
。 - features (
Features
,可选) — 设置此数据集要使用的特征类型。 - download_config (DownloadConfig,可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
,默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - verification_mode (VerificationMode 或
str
,默认为BASIC_CHECKS
) — 验证模式,确定要对下载/处理的数据集信息(校验和/大小/拆分等)运行的检查。新增于 2.9.1
- keep_in_memory (
bool
,默认为None
) — 是否将数据集复制到内存中。如果为None
,则除非通过将datasets.config.IN_MEMORY_MAX_SIZE
设置为非零值明确启用,否则数据集不会复制到内存中。有关更多详细信息,请参阅 提高性能 部分。 - save_infos (
bool
,默认为False
) — 保存数据集信息(校验和/大小/拆分等)。 - revision (Version 或
str
,可选) — 要加载的数据集脚本的版本。由于数据集在 Datasets Hub 上有自己的 Git 存储库,因此默认版本“main”对应于它们的“main”分支。您可以使用数据集存储库的提交 SHA 或 Git 标签指定与默认“main”不同的版本。 - token (
str
或bool
,可选) — 可选字符串或布尔值,用作 Datasets Hub 上远程文件的 Bearer 令牌。如果为True
或未指定,则将从"~/.huggingface"
获取令牌。 - streaming (
bool
,默认为False
) — 如果设置为True
,则不下载数据文件。相反,它会在迭代数据集时逐步流式传输数据。在这种情况下,将返回 IterableDataset 或 IterableDatasetDict。请注意,流式传输适用于使用支持迭代的数据格式(例如 txt、csv、jsonl 等)的数据集。Json 文件可能会完全下载。此外,还支持从远程 zip 或 gzip 文件流式传输,但 rar 和 xz 等其他压缩格式尚不支持。tgz 格式不允许流式传输。
- num_proc (
int
,可选,默认为None
) — 在本地下载和生成数据集时的进程数。默认情况下禁用多处理。新增于 2.7.0
- trust_remote_code (
bool
,默认为False
) — 是否允许使用数据集脚本在 Hub 上定义的数据集。此选项应仅在您信任的存储库中且已阅读代码的情况下设置为True
,因为它将在您的本地机器上执行 Hub 上存在的代码。新增于 2.16.0
更改于 2.20.0
如果未指定,则
trust_remote_code
默认为False
。 - **config_kwargs (其他关键字参数) — 要传递给
BuilderConfig
并用于 DatasetBuilder 的关键字参数。
返回值
- 如果
split
不是None
:请求的数据集, - 如果
split
是None
,则为包含每个拆分的 DatasetDict。
或 IterableDataset 或 IterableDatasetDict:如果 streaming=True
- 如果
split
不是None
,则请求数据集 - 如果
split
是None
,则为包含每个拆分的~datasets.streaming.IterableDatasetDict
。
从 Hugging Face Hub 或本地数据集加载数据集。
您可以在 Hub 上或使用 huggingface_hub.list_datasets
找到数据集列表。
数据集是一个包含以下内容的目录
- 一些通用格式(JSON、CSV、Parquet、文本等)的数据文件。
- 以及可选的数据集脚本,如果它需要一些代码来读取数据文件。这用于加载任何类型的格式或结构。
请注意,数据集脚本还可以从任何地方下载和读取数据文件 - 如果您的数据文件已在线存在。
此函数在幕后执行以下操作
如果数据集脚本尚未缓存到库中,则从
path
下载并导入库中的数据集脚本。如果数据集没有数据集脚本,则改为导入通用数据集脚本(JSON、CSV、Parquet、文本等)。
数据集脚本是定义数据集构建器的小型 Python 脚本。它们定义数据集的引用、信息和格式,包含原始数据文件的路径或 URL 以及从原始数据文件加载示例的代码。
您可以在 Datasets Hub 中找到数据集的完整列表。
运行数据集脚本,它将
如果原始 URL(请参阅脚本)中的数据集文件尚不可用或未缓存,则将其下载到本地。
处理数据集并将其缓存到类型化的 Arrow 表中以进行缓存。
Arrow 表是任意长的、类型化的表,可以存储嵌套对象并映射到 numpy/pandas/python 通用类型。可以直接从磁盘访问它们,加载到 RAM 中,甚至可以通过网络进行流式传输。
返回根据
split
中请求的拆分构建的数据集(默认值:全部)。
它还允许从本地目录或 Hugging Face Hub 上没有数据集脚本的数据集存储库加载数据集。在这种情况下,它会自动加载目录或数据集存储库中的所有数据文件。
示例
从 Hugging Face Hub 加载数据集
>>> from datasets import load_dataset
>>> ds = load_dataset('rotten_tomatoes', split='train')
# Map data files to splits
>>> data_files = {'train': 'train.csv', 'test': 'test.csv'}
>>> ds = load_dataset('namespace/your_dataset_name', data_files=data_files)
加载本地数据集
# Load a CSV file
>>> from datasets import load_dataset
>>> ds = load_dataset('csv', data_files='path/to/local/my_dataset.csv')
# Load a JSON file
>>> from datasets import load_dataset
>>> ds = load_dataset('json', data_files='path/to/local/my_dataset.json')
# Load from a local loading script
>>> from datasets import load_dataset
>>> ds = load_dataset('path/to/local/loading_script/loading_script.py', split='train')
datasets.load_from_disk
< source >( dataset_path: Union keep_in_memory: Optional = None storage_options: Optional = None ) → Dataset 或 DatasetDict
参数
- dataset_path (
路径类型
) — Dataset 或 DatasetDict 目录的路径(例如"dataset/train"
)或远程 URI(例如"s3://my-bucket/dataset/train"
),从中加载数据集/数据集字典。 - keep_in_memory (
bool
,默认为None
) — 是否将数据集复制到内存中。如果为None
,则除非通过将datasets.config.IN_MEMORY_MAX_SIZE
设置为非零值显式启用,否则数据集不会复制到内存中。在 提高性能 部分中查看更多详细信息。 - storage_options (
dict
,可选) — 要传递给文件系统后端(如果有)的键/值对。新增于 2.9.0
返回值
- 如果
dataset_path
是数据集目录的路径:请求的数据集。 - 如果
dataset_path
是数据集字典目录的路径,则为包含每个拆分的 DatasetDict。
加载先前使用 save_to_disk() 从数据集目录或使用 fsspec.spec.AbstractFileSystem
的任何实现从文件系统保存的数据集。
datasets.load_dataset_builder
< source >( path: str name: Optional = None data_dir: Optional = None data_files: Union = None cache_dir: Optional = None features: Optional = None download_config: Optional = None download_mode: Union = None revision: Union = None token: Union = None storage_options: Optional = None trust_remote_code: Optional = None _require_default_config_name = True **config_kwargs )
参数
- path (
str
) — 数据集的路径或名称。根据path
,使用的 Dataset Builder 来自通用数据集脚本(JSON、CSV、Parquet、文本等)或来自数据集目录内的数据集脚本(Python 文件)。对于本地数据集:
- 如果
path
是一个本地目录(仅包含数据文件) -> 根据目录内容加载通用数据集构建器(csv、json、text 等),例如'./path/to/directory/with/my/csv/data'
。 - 如果
path
是一个本地数据集脚本或包含本地数据集脚本的目录(如果脚本与目录同名) -> 从数据集脚本加载数据集构建器,例如'./dataset/squad'
或'./dataset/squad/squad.py'
。
对于 Hugging Face Hub 上的数据集(使用
huggingface_hub.list_datasets
列出所有可用的数据集)- 如果
path
是 HF Hub 上的数据集存储库(仅包含数据文件) -> 根据存储库内容加载通用数据集构建器(csv、text 等),例如'username/dataset_name'
,HF Hub 上包含数据文件的数据集存储库。 - 如果
path
是 HF Hub 上的数据集存储库,并且包含数据集脚本(如果脚本与目录同名) -> 从数据集存储库中的数据集脚本加载数据集构建器,例如glue
、squad
、'username/dataset_name'
,HF Hub 上包含数据集脚本'dataset_name.py'
的数据集存储库。
- 如果
- name (
str
, 可选) — 定义数据集配置的名称。 - data_dir (
str
, 可选) — 定义数据集配置的data_dir
。如果为通用构建器(csv、text 等)或 Hub 数据集指定,并且data_files
为None
,则行为等同于将os.path.join(data_dir, **)
作为data_files
传递以引用目录中的所有文件。 - data_files (
str
或Sequence
或Mapping
, 可选) — 源数据文件路径。 - cache_dir (
str
, 可选) — 读取/写入数据的目录。默认为"~/.cache/huggingface/datasets"
。 - features (Features, 可选) — 为此数据集设置要使用的特征类型。
- download_config (DownloadConfig, 可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
,默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - revision (Version 或
str
,可选) — 要加载的数据集脚本的版本。由于数据集在 Datasets Hub 上拥有自己的 Git 仓库,因此默认版本“main”对应于它们的“main”分支。可以通过使用数据集仓库的提交 SHA 或 Git 标签来指定与默认“main”不同的版本。 - token (
str
或bool
,可选) — 用于 Datasets Hub 上远程文件的可选字符串或布尔值作为 Bearer 令牌。如果为True
或未指定,则将从"~/.huggingface"
获取令牌。 - storage_options (
dict
,可选,默认为None
) — 实验性。将传递给数据集文件系统后端(如果有)的键值对。新增于 2.11.0
- trust_remote_code (
bool
,默认为False
) — 是否允许使用数据集脚本在 Hub 上定义数据集。此选项应仅在您信任的存储库中且已阅读代码的情况下设置为True
,因为它将在您的本地机器上执行 Hub 上存在的代码。新增于 2.16.0
更改于 2.20.0
如果未指定,则
trust_remote_code
默认为False
。 - **config_kwargs (其他关键字参数) — 要传递给 BuilderConfig 并在 DatasetBuilder 中使用的关键字参数。
从 Hugging Face Hub 或本地数据集加载数据集构建器。数据集构建器可用于检查构建数据集所需的一般信息(缓存目录、配置、数据集信息等),而无需下载数据集本身。
您可以在 Hub 上或使用 huggingface_hub.list_datasets
找到数据集列表。
数据集是一个包含以下内容的目录
- 一些通用格式(JSON、CSV、Parquet、文本等)的数据文件
- 以及可选的数据集脚本,如果它需要一些代码来读取数据文件。这用于加载任何类型的格式或结构。
请注意,数据集脚本还可以从任何地方下载和读取数据文件 - 如果您的数据文件已在线存在。
datasets.get_dataset_config_names
< 源代码 >( path: str revision: Union = None download_config: Optional = None download_mode: Union = None dynamic_modules_path: Optional = None data_files: Union = None **download_kwargs )
参数
- path (
str
) — 数据集处理脚本(包含数据集构建器)的路径。可以是:- 处理脚本的本地路径或包含该脚本的目录(如果脚本与目录同名),例如
'./dataset/squad'
或'./dataset/squad/squad.py'
- Hugging Face Hub 上的数据集标识符(使用
huggingface_hub.list_datasets
列出所有可用的数据集和 ID),例如'squad'
、'glue'
或'openai/webtext'
- 处理脚本的本地路径或包含该脚本的目录(如果脚本与目录同名),例如
- revision (
Union[str, datasets.Version]
,可选) — 如果指定,则数据集模块将从此版本的 datasets 存储库加载。默认情况下:- 它设置为库的本地版本。
- 如果库的本地版本中不可用,它还将尝试从主分支加载它。指定与库的本地版本不同的版本可能会导致兼容性问题。
- download_config (DownloadConfig,可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
,默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - dynamic_modules_path (
str
,默认为~/.cache/huggingface/modules/datasets_modules
) — 动态模块保存目录的可选路径。它必须使用init_dynamic_modules
初始化。默认情况下,数据集存储在datasets_modules
模块中。 - data_files (
Union[Dict, List, str]
,可选) — 定义数据集配置的 data_files。 - **download_kwargs (其他关键字参数) — DownloadConfig 的可选属性,如果提供,则会覆盖
download_config
中的属性,例如token
。
获取特定数据集的可用配置名称列表。
datasets.get_dataset_infos
< 源代码 >( path: str data_files: Union = None download_config: Optional = None download_mode: Union = None revision: Union = None token: Union = None **config_kwargs )
参数
- path (
str
) — 数据集处理脚本(包含数据集构建器)的路径。可以是:- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
'./dataset/squad'
或'./dataset/squad/squad.py'
- Hugging Face Hub 上的数据集标识符(使用
huggingface_hub.list_datasets
列出所有可用数据集和 ID),例如'squad'
、'glue'
或'openai/webtext'
- 处理脚本的本地路径或包含脚本的目录(如果脚本与目录同名),例如
- revision (
Union[str, datasets.Version]
,可选) — 如果指定,则数据集模块将从此版本的存储库加载。默认情况下:- 它设置为库的本地版本。
- 如果库的本地版本中不可用,它还会尝试从主分支加载它。指定与库的本地版本不同的版本可能会导致兼容性问题。
- download_config (DownloadConfig,可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
,默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - **config_kwargs (其他关键字参数) — 生成器类的可选属性,如果提供,将覆盖这些属性。
获取有关数据集的元信息,以字典形式返回,其中 config 名称映射到 DatasetInfoDict。
datasets.get_dataset_split_names
< 源代码 > ( path: str config_name: Optional = None data_files: Union = None download_config: Optional = None download_mode: Union = None revision: Union = None token: Union = None **config_kwargs )
参数
- path (
str
) — 数据集处理脚本(包含数据集生成器)的路径。可以是:- 处理脚本的本地路径或包含该脚本的目录(如果脚本与目录同名),例如
'./dataset/squad'
或'./dataset/squad/squad.py'
- Hugging Face Hub 上的数据集标识符(使用
huggingface_hub.list_datasets
列出所有可用的数据集和 ID),例如'squad'
、'glue'
或'openai/webtext'
- 处理脚本的本地路径或包含该脚本的目录(如果脚本与目录同名),例如
- config_name (
str
, 可选) — 定义数据集配置的名称。 - data_files (
str
或Sequence
或Mapping
, 可选) — 源数据文件路径。 - download_config (DownloadConfig, 可选) — 特定的下载配置参数。
- download_mode (DownloadMode 或
str
,默认为REUSE_DATASET_IF_EXISTS
) — 下载/生成模式。 - revision (Version 或
str
, 可选) — 要加载的数据集脚本的版本。由于数据集在数据集中心拥有自己的 Git 存储库,因此默认版本“main”对应于其“main”分支。您可以使用数据集存储库的提交 SHA 或 Git 标签来指定与默认“main”不同的版本。 - token (
str
或bool
, 可选) — 用于数据集中心远程文件的 Bearer token 的可选字符串或布尔值。如果为True
或未指定,则将从"~/.huggingface"
获取 token。 - **config_kwargs (其他关键字参数) — 用于构建器类的可选属性,如果提供,则会覆盖这些属性。
获取特定配置和数据集的可用拆分列表。
从文件
用于加载数据文件的配置。在加载本地文件或数据集存储库时使用它们
- 本地文件:
load_dataset("parquet", data_dir="path/to/data/dir")
- 数据集存储库:
load_dataset("allenai/c4")
您可以将参数传递给 load_dataset
以配置数据加载。例如,您可以指定 sep
参数来定义用于加载数据的CsvConfig
load_dataset("csv", data_dir="path/to/data/dir", sep="\t")
文本
类 datasets.packaged_modules.text.TextConfig
< 源代码 >( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None features: Optional = None encoding: str = 'utf-8' encoding_errors: Optional = None chunksize: int = 10485760 keep_linebreaks: bool = False sample_by: str = 'line' )
文本文件的 BuilderConfig。
类 datasets.packaged_modules.text.Text
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
CSV
类 datasets.packaged_modules.csv.CsvConfig
< 源代码 >( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None sep: str = ',' delimiter: Optional = None header: Union = 'infer' names: Optional = None column_names: Optional = None index_col: Union = None usecols: Union = None prefix: Optional = None mangle_dupe_cols: bool = True engine: Optional = None converters: Dict = None true_values: Optional = None false_values: Optional = None skipinitialspace: bool = False skiprows: Union = None nrows: Optional = None na_values: Union = None keep_default_na: bool = True na_filter: bool = True verbose: bool = False skip_blank_lines: bool = True thousands: Optional = None decimal: str = '.' lineterminator: Optional = None quotechar: str = '"' quoting: int = 0 escapechar: Optional = None comment: Optional = None encoding: Optional = None dialect: Optional = None error_bad_lines: bool = True warn_bad_lines: bool = True skipfooter: int = 0 doublequote: bool = True memory_map: bool = False float_precision: Optional = None chunksize: int = 10000 features: Optional = None encoding_errors: Optional = 'strict' on_bad_lines: Literal = 'error' date_format: Optional = None )
CSV 的构建器配置。
类 datasets.packaged_modules.csv.Csv
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
JSON
类 datasets.packaged_modules.json.JsonConfig
< 源代码 >( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None features: Optional = None encoding: str = 'utf-8' encoding_errors: Optional = None field: Optional = None use_threads: bool = True block_size: Optional = None chunksize: int = 10485760 newlines_in_values: Optional = None )
JSON 的构建器配置。
类 datasets.packaged_modules.json.Json
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
Parquet
类 datasets.packaged_modules.parquet.ParquetConfig
< 源代码 >( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None batch_size: Optional = None columns: Optional = None features: Optional = None )
Parquet 的构建器配置。
类 datasets.packaged_modules.parquet.Parquet
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
Arrow
类 datasets.packaged_modules.arrow.ArrowConfig
< 源代码 >( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None features: Optional = None )
Arrow 的构建器配置。
类 datasets.packaged_modules.arrow.Arrow
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
SQL
类 datasets.packaged_modules.sql.SqlConfig
< 源代码( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None sql: Union = None con: Union = None index_col: Union = None coerce_float: bool = True params: Union = None parse_dates: Union = None columns: Optional = None chunksize: Optional = 10000 features: Optional = None )
SQL 的构建器配置。
class datasets.packaged_modules.sql.Sql
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
图像
class datasets.packaged_modules.imagefolder.ImageFolderConfig
< 源代码 >( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None features: Optional = None drop_labels: bool = None drop_metadata: bool = None )
ImageFolder 的构建器配置。
class datasets.packaged_modules.imagefolder.ImageFolder
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
音频
class datasets.packaged_modules.audiofolder.AudioFolderConfig
< 源代码 >( name: str = 'default' version: Union = 0.0.0 data_dir: Optional = None data_files: Union = None description: Optional = None features: Optional = None drop_labels: bool = None drop_metadata: bool = None )
AudioFolder 的构建器配置。
class datasets.packaged_modules.audiofolder.AudioFolder
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )
WebDataset
class datasets.packaged_modules.webdataset.WebDataset
< 源代码 >( cache_dir: Optional = None dataset_name: Optional = None config_name: Optional = None hash: Optional = None base_path: Optional = None info: Optional = None features: Optional = None token: Union = None repo_id: Optional = None data_files: Union = None data_dir: Optional = None storage_options: Optional = None writer_batch_size: Optional = None **config_kwargs )