Hub 文档
下载数据集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
下载数据集
集成库
如果 Hub 上的数据集与受支持的库关联,则只需几行代码即可加载数据集。有关访问数据集的信息,您可以单击数据集页面上的“使用此数据集”按钮以查看如何操作。例如,samsum
展示了如何使用 🤗 Datasets 进行如下操作。




使用 Hugging Face 客户端库
您可以使用 huggingface_hub
库来创建、删除、更新和检索仓库信息。例如,要从命令行下载 HuggingFaceH4/ultrachat_200k
数据集,请运行
hf download HuggingFaceH4/ultrachat_200k --repo-type dataset
有关更多信息,请参阅HF CLI 下载文档。
您还可以将其集成到您自己的库中!例如,您可以使用 Pandas 快速加载几行 CSV 数据集。
from huggingface_hub import hf_hub_download
import pandas as pd
REPO_ID = "YOUR_REPO_ID"
FILENAME = "data.csv"
dataset = pd.read_csv(
hf_hub_download(repo_id=REPO_ID, filename=FILENAME, repo_type="dataset")
)
使用 Git
由于 Hub 上的所有数据集都是 Git 仓库,您可以通过运行以下命令在本地克隆数据集
git lfs install
git clone git@hf.co:datasets/<dataset ID> # example: git clone git@hf.co:datasets/allenai/c4
如果您对特定数据集仓库具有写入权限,您还将能够提交和推送对数据集的修订。
将您的 SSH 公钥添加到您的用户设置,以推送更改和/或访问私有仓库。
< > 在 GitHub 上更新