数据类型
数据集查看器支持的数据集具有表格格式,这意味着数据点以行为表示,其特征包含在列中。使用/first-rows
端点可以预览数据集的前 100 行以及有关每个特征的信息。在features
键中,你会注意到它返回一个_type
字段。此值描述了列的数据类型,它也被称为数据集的Features
。
有多种不同的数据Features
用于表示不同的数据格式,例如Audio
和Image
分别用于语音和图像数据。了解数据集特征可以让你更好地理解正在使用的数据类型以及如何对其进行预处理。
例如,Rotten Tomatoes数据集的/first-rows
端点返回以下内容
{"dataset": "cornell-movie-review-data/rotten_tomatoes",
"config": "default",
"split": "train",
"features": [{"feature_idx": 0,
"name": "text",
"type": {"dtype": "string",
"id": null,
"_type": "Value"}},
{"feature_idx": 1,
"name": "label",
"type": {"num_classes": 2,
"names": ["neg", "pos"],
"id": null,
"_type": "ClassLabel"}}],
...
}
此数据集包含两列,text
和label
text
列的类型为Value
。Value
类型非常通用,表示标量值,例如字符串、整数、日期,甚至时间戳值。label
列的类型为ClassLabel
。ClassLabel
类型表示数据集中类的数量及其标签名称。当然,这意味着你会经常看到ClassLabel
用于分类数据集。
有关可用数据类型的完整列表,请查看Features
文档。