数据集文档

安装

Hugging Face's logo
加入 Hugging Face 社区

并获得增强版文档体验

开始使用

安装

在开始之前,您需要设置您的环境并安装相应的包。🤗 数据集在 Python 3.7+ 上经过测试。

如果您想将 🤗 数据集与 TensorFlow 或 PyTorch 一起使用,则需要分别安装它们。有关您框架的特定安装命令,请参阅 TensorFlow 安装页面PyTorch 安装页面

虚拟环境

您应该在 虚拟环境 中安装 🤗 数据集,以保持整洁并避免依赖冲突。

  1. 创建您的项目目录并导航到该目录

    mkdir ~/my-project
    cd ~/my-project
  2. 在您的目录中启动虚拟环境

    python -m venv .env
  3. 使用以下命令激活和停用虚拟环境

    # Activate the virtual environment
    source .env/bin/activate
    
    # Deactivate the virtual environment
    source .env/bin/deactivate

创建虚拟环境后,您可以在其中安装 🤗 数据集。

pip

使用 pip 安装 🤗 Datasets 最简单的方法

pip install datasets

运行以下命令以检查 🤗 Datasets 是否已正确安装

python -c "from datasets import load_dataset; print(load_dataset('squad', split='train')[0])"

此命令会下载 斯坦福问答数据集 (SQuAD) 的版本 1,加载训练集,并打印第一个训练示例。您应该看到以下内容

{'answers': {'answer_start': [515], 'text': ['Saint Bernadette Soubirous']}, 'context': 'Architecturally, the school has a Catholic character. Atop the Main Building\'s gold dome is a golden statue of the Virgin Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend "Venite Ad Me Omnes". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858. At the end of the main drive (and in a direct line that connects through 3 statues and the Gold Dome), is a simple, modern stone statue of Mary.', 'id': '5733be284776f41900661182', 'question': 'To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?', 'title': 'University_of_Notre_Dame'}

音频

要使用音频数据集,您需要将 音频 功能作为额外依赖项安装

pip install datasets[audio]

要解码 mp3 文件,您需要至少安装版本 1.1.0 的 libsndfile 系统库。通常,它与 python soundfile 包捆绑在一起,该包作为 🤗 Datasets 的额外音频依赖项安装。对于 Linux,从版本 0.12.0 开始,libsndfile 的所需版本与 soundfile 捆绑在一起。您可以运行以下命令来确定 soundfile 使用的是哪个版本的 libsndfile

python -c "import soundfile; print(soundfile.__libsndfile_version__)"

视觉

要使用图像数据集,您需要将 图像 功能作为额外依赖项安装

pip install datasets[vision]

源代码

从源代码构建 🤗 Datasets 允许您对代码库进行更改。要从源代码安装,请克隆存储库并使用以下命令安装

git clone https://github.com/huggingface/datasets.git
cd datasets
pip install -e .

同样,您可以使用以下命令检查 🤗 Datasets 是否已正确安装

python -c "from datasets import load_dataset; print(load_dataset('squad', split='train')[0])"

conda

🤗 Datasets 也可以从 conda(一个包管理系统)安装

conda install -c huggingface -c conda-forge datasets
< > GitHub 上更新