Hub

数据集下载统计

数据集下载如何计数？

统计数据集的下载量并非易事，因为一个数据集仓库可能包含多个文件，来自多个子集和分割（例如训练/验证/测试），有时一个分割中包含许多文件。为了解决这个问题并避免重复计算同一用户的多次下载，我们将在5分钟内由用户（基于其IP地址）下载的所有文件视为一次数据集下载。当文件通过GET或HEAD请求下载时，此计数会在我们的服务器上自动发生，无需收集任何用户信息或进行额外调用。

2024年9月之前

Hub 过去只提供通过 datasets 库加载的数据集的下载统计。为了确定下载量，Hub 以前会计算在 Python 中每次调用 load_dataset 的次数，不包括 Hugging Face 在 GitHub 上的 CI 工具。此过程中不会从用户端发送任何信息，也不会进行额外调用。计数是在我们提供文件下载时在服务器端完成的。这意味着：

无论数据是直接存储在 Hub 仓库中，还是仓库有一个从外部源加载数据的脚本，下载计数都是相同的。
如果用户使用 wget 或 Hub 的用户界面 (UI) 等工具手动下载数据，这些下载不会包含在下载计数中。

< > 在 GitHub 上更新