数据集查看器文档
数据类型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
数据类型
数据集查看器支持的数据集采用表格格式,这意味着一个数据点以一行表示,其特征包含在列中。使用 /first-rows 端点可以预览数据集的前 100 行以及每个特征的信息。在 features 键中,您会注意到它返回一个 _type 字段。此值描述了列的数据类型,它也称为数据集的 Features。
有几种不同的数据 Features 用于表示不同的数据格式,例如用于语音和图像数据的 Audio 和 Image。了解数据集特征可以更好地理解您正在处理的数据类型以及如何对其进行预处理。
例如,烂番茄 数据集的 /first-rows 端点返回以下内容:
{"dataset": "cornell-movie-review-data/rotten_tomatoes",
"config": "default",
"split": "train",
"features": [{"feature_idx": 0,
"name": "text",
"type": {"dtype": "string",
"id": null,
"_type": "Value"}},
{"feature_idx": 1,
"name": "label",
"type": {"num_classes": 2,
"names": ["neg", "pos"],
"id": null,
"_type": "ClassLabel"}}],
...
}此数据集有两列:text 和 label
text列的类型为Value。Value类型用途广泛,表示标量值,例如字符串、整数、日期,甚至时间戳值。label列的类型为ClassLabel。ClassLabel类型表示数据集中的类数量及其标签名称。自然,这意味着您会经常看到ClassLabel用于分类数据集。
有关可用数据类型的完整列表,请参阅 Features 文档。