Hub 文档
数据集下载统计
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
数据集下载统计
数据集下载如何计数?
统计数据集的下载量并非易事,因为一个数据集仓库可能包含多个文件,来自多个子集和分割(例如训练/验证/测试),有时一个分割中包含许多文件。为了解决这个问题并避免重复计算同一用户的多次下载,我们将在5分钟内由用户(基于其IP地址)下载的所有文件视为一次数据集下载。当文件通过GET或HEAD请求下载时,此计数会在我们的服务器上自动发生,无需收集任何用户信息或进行额外调用。
2024年9月之前
Hub 过去只提供通过 datasets
库加载的数据集的下载统计。为了确定下载量,Hub 以前会计算在 Python 中每次调用 load_dataset
的次数,不包括 Hugging Face 在 GitHub 上的 CI 工具。此过程中不会从用户端发送任何信息,也不会进行额外调用。计数是在我们提供文件下载时在服务器端完成的。这意味着:
- 无论数据是直接存储在 Hub 仓库中,还是仓库有一个从外部源加载数据的脚本,下载计数都是相同的。
- 如果用户使用
wget
或 Hub 的用户界面 (UI) 等工具手动下载数据,这些下载不会包含在下载计数中。