Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

入门指南

下载数据集

集成库

如果 Hub 上的数据集与支持的库关联,则只需几行代码即可加载数据集。有关访问数据集的信息,您可以点击数据集页面上的“在数据集库中使用”按钮,了解如何操作。例如,samsum展示了如何在下面使用 🤗 Datasets。

使用 Hugging Face 客户端库

您可以使用huggingface_hub 库创建、删除、更新和检索存储库的信息。您还可以从存储库下载文件或将其集成到您的库中!例如,您可以使用 Pandas 在几行代码内快速加载 CSV 数据集。

from huggingface_hub import hf_hub_download
import pandas as pd

REPO_ID = "YOUR_REPO_ID"
FILENAME = "data.csv"

dataset = pd.read_csv(
    hf_hub_download(repo_id=REPO_ID, filename=FILENAME, repo_type="dataset")
)

使用 Git

由于 Hub 上的所有数据集都是 Git 存储库,因此您可以通过运行以下命令将数据集克隆到本地

git lfs install
git clone [email protected]:datasets/<dataset ID> # example: git clone [email protected]:datasets/allenai/c4

如果您对特定数据集存储库具有写入权限,您还可以提交和推送数据集的修订版本。

将您的 SSH 公钥添加到用户设置中,以推送更改和/或访问私有存储库。

< > 更新 在 GitHub 上