Hub 文档
数据集下载统计
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
数据集下载统计
如何计算数据集的下载量?
计算数据集的下载量并非易事,因为单个数据集仓库可能包含多个文件,来自多个子集和拆分(例如,训练/验证/测试),有时单个拆分中包含许多文件。为了解决这个问题并避免多次计算一个人的下载量,我们将用户(基于其 IP 地址)在 5 分钟窗口内下载的所有文件视为单个数据集下载。此计数在我们的服务器上自动进行,当文件被下载时(通过 GET 或 HEAD 请求),无需收集任何用户信息或进行额外的调用。
2024 年 9 月之前
Hub 过去仅为通过 datasets 库加载的数据集提供下载统计信息。为了确定下载次数,Hub 之前计算每次在 Python 中调用 load_dataset
的次数,排除 Hugging Face 在 GitHub 上的 CI 工具。没有从用户发送任何信息,也没有为此进行额外的调用。计数是在服务器端完成的,因为我们为下载提供文件。这意味着
- 无论数据是直接存储在 Hub 仓库中,还是仓库具有脚本从外部源加载数据,下载计数都是相同的。
- 如果用户使用 wget 等工具或 Hub 的用户界面 (UI) 手动下载数据,则这些下载不包含在下载计数中。