安装
在开始之前,您需要设置您的环境并安装相应的包。🤗 数据集在 Python 3.7+ 上经过测试。
如果您想将 🤗 数据集与 TensorFlow 或 PyTorch 一起使用,则需要分别安装它们。有关您框架的特定安装命令,请参阅 TensorFlow 安装页面 或 PyTorch 安装页面。
虚拟环境
您应该在 虚拟环境 中安装 🤗 数据集,以保持整洁并避免依赖冲突。
创建您的项目目录并导航到该目录
mkdir ~/my-project cd ~/my-project
在您的目录中启动虚拟环境
python -m venv .env
使用以下命令激活和停用虚拟环境
# Activate the virtual environment source .env/bin/activate # Deactivate the virtual environment source .env/bin/deactivate
创建虚拟环境后,您可以在其中安装 🤗 数据集。
pip
使用 pip 安装 🤗 Datasets 最简单的方法
pip install datasets
运行以下命令以检查 🤗 Datasets 是否已正确安装
python -c "from datasets import load_dataset; print(load_dataset('squad', split='train')[0])"
此命令会下载 斯坦福问答数据集 (SQuAD) 的版本 1,加载训练集,并打印第一个训练示例。您应该看到以下内容
{'answers': {'answer_start': [515], 'text': ['Saint Bernadette Soubirous']}, 'context': 'Architecturally, the school has a Catholic character. Atop the Main Building\'s gold dome is a golden statue of the Virgin Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend "Venite Ad Me Omnes". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858. At the end of the main drive (and in a direct line that connects through 3 statues and the Gold Dome), is a simple, modern stone statue of Mary.', 'id': '5733be284776f41900661182', 'question': 'To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?', 'title': 'University_of_Notre_Dame'}
音频
要使用音频数据集,您需要将 音频 功能作为额外依赖项安装
pip install datasets[audio]
要解码 mp3 文件,您需要至少安装版本 1.1.0 的 libsndfile
系统库。通常,它与 python soundfile
包捆绑在一起,该包作为 🤗 Datasets 的额外音频依赖项安装。对于 Linux,从版本 0.12.0 开始,libsndfile
的所需版本与 soundfile
捆绑在一起。您可以运行以下命令来确定 soundfile
使用的是哪个版本的 libsndfile
python -c "import soundfile; print(soundfile.__libsndfile_version__)"
视觉
要使用图像数据集,您需要将 图像 功能作为额外依赖项安装
pip install datasets[vision]
源代码
从源代码构建 🤗 Datasets 允许您对代码库进行更改。要从源代码安装,请克隆存储库并使用以下命令安装
git clone https://github.com/huggingface/datasets.git
cd datasets
pip install -e .
同样,您可以使用以下命令检查 🤗 Datasets 是否已正确安装
python -c "from datasets import load_dataset; print(load_dataset('squad', split='train')[0])"
conda
🤗 Datasets 也可以从 conda(一个包管理系统)安装
conda install -c huggingface -c conda-forge datasets