Datasets 文档

实用工具

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

实用工具

配置日志

🤗 Datasets 力求在工作方式上透明和明确,但这有时会非常冗长。我们提供了一系列日志方法,让您可以轻松调整整个库的冗余级别。目前库的默认冗余级别设置为 `WARNING`。

要更改冗余级别,请使用其中一个直接设置器。例如,以下是如何将冗余级别更改为 `INFO` 级别:

import datasets
datasets.logging.set_verbosity_info()

您还可以使用环境变量 `DATASETS_VERBOSITY` 覆盖默认冗余级别,并将其设置为以下之一:`debug`、`info`、`warning`、`error`、`critical`。

DATASETS_VERBOSITY=error ./myprogram.py

此日志模块的所有方法均在下面文档中。主要方法有:

从最不详细到最详细的顺序(及其对应的 `int` 值)

  1. `logging.CRITICAL` 或 `logging.FATAL` (整数值, 50): 仅报告最关键的错误。
  2. `logging.ERROR` (整数值, 40): 仅报告错误。
  3. `logging.WARNING` 或 `logging.WARN` (整数值, 30): 仅报告错误和警告。这是库使用的默认级别。
  4. `logging.INFO` (整数值, 20): 报告错误、警告和基本信息。
  5. `logging.DEBUG` (整数值, 10): 报告所有信息。

datasets.utils.logging.get_verbosity

< >

( )

返回 HuggingFace Datasets 库的根日志记录器的当前级别。

HuggingFace Datasets 库具有以下日志级别:

  • `datasets.logging.CRITICAL`, `datasets.logging.FATAL`
  • datasets.logging.ERROR
  • `datasets.logging.WARNING`, `datasets.logging.WARN`
  • datasets.logging.INFO
  • datasets.logging.DEBUG

datasets.utils.logging.set_verbosity

< >

( verbosity: int )

参数

  • verbosity — 日志级别,例如 `datasets.logging.DEBUG` 和 `datasets.logging.INFO`。

设置 Hugging Face Datasets 库的根日志记录器的级别。

datasets.utils.logging.set_verbosity_info

< >

( )

将 Hugging Face Datasets 库的根日志记录器级别设置为 `INFO`。

这将显示大部分日志信息和 tqdm 进度条。

`datasets.logging.set_verbosity(datasets.logging.INFO)` 的快捷方式。

datasets.utils.logging.set_verbosity_warning

< >

( )

将 Hugging Face Datasets 库的根日志记录器级别设置为 `WARNING`。

这将仅显示警告和错误日志信息以及 tqdm 进度条。

`datasets.logging.set_verbosity(datasets.logging.WARNING)` 的快捷方式。

datasets.utils.logging.set_verbosity_debug

< >

( )

将 Hugging Face Datasets 库的根日志记录器级别设置为 `DEBUG`。

这将显示所有日志信息和 tqdm 进度条。

`datasets.logging.set_verbosity(datasets.logging.DEBUG)` 的快捷方式。

datasets.utils.logging.set_verbosity_error

< >

( )

将 Hugging Face Datasets 库的根日志记录器级别设置为 `ERROR`。

这将仅显示错误日志信息和 tqdm 进度条。

`datasets.logging.set_verbosity(datasets.logging.ERROR)` 的快捷方式。

datasets.utils.logging.disable_propagation

< >

( )

禁用库日志输出的传播。请注意,日志传播默认是禁用的。

datasets.utils.logging.enable_propagation

< >

( )

启用库日志输出的传播。如果根日志记录器已配置,请禁用 Hugging Face Datasets 库的默认处理程序,以防止重复日志。

配置进度条

默认情况下,在数据集下载和预处理期间会显示 `tqdm` 进度条。您可以通过设置 `HF_DATASETS_DISABLE_PROGRESS_BARS` 环境变量来全局禁用它们。您也可以使用 enable_progress_bars()disable_progress_bars() 来启用/禁用它们。如果设置了环境变量,则其优先级高于这些辅助函数。

datasets.enable_progress_bars

< >

( )

全局启用 `datasets` 中使用的进度条,除非已设置 `HF_DATASETS_DISABLE_PROGRESS_BAR` 环境变量。

使用 disable_progress_bars() 禁用它们。

datasets.disable_progress_bars

< >

( )

全局禁用 `datasets` 中使用的进度条,除非已设置 `HF_DATASETS_DISABLE_PROGRESS_BAR` 环境变量。

使用 enable_progress_bars() 重新启用它们。

datasets.are_progress_bars_disabled

< >

( )

返回进度条是否全局禁用。

`datasets` 中使用的进度条可以通过 enable_progress_bars()disable_progress_bars() 全局启用或禁用,或者通过设置 `HF_DATASETS_DISABLE_PROGRESS_BAR` 环境变量。

< > 在 GitHub 上更新