数据集查看器文档

数据类型

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

数据类型

数据集查看器支持的数据集具有表格格式,这意味着数据点以行为表示,其特征包含在列中。使用/first-rows端点可以预览数据集的前 100 行以及有关每个特征的信息。在features键中,你会注意到它返回一个_type字段。此值描述了列的数据类型,它也被称为数据集的Features

有多种不同的数据Features用于表示不同的数据格式,例如AudioImage分别用于语音和图像数据。了解数据集特征可以让你更好地理解正在使用的数据类型以及如何对其进行预处理。

例如,Rotten Tomatoes数据集的/first-rows端点返回以下内容

{"dataset": "cornell-movie-review-data/rotten_tomatoes",
 "config": "default",
 "split": "train",
 "features": [{"feature_idx": 0,
   "name": "text",
   "type": {"dtype": "string", 
   "id": null,
   "_type": "Value"}},
  {"feature_idx": 1,
   "name": "label",
   "type": {"num_classes": 2,
    "names": ["neg", "pos"],
    "id": null,
    "_type": "ClassLabel"}}],
  ...
 }

此数据集包含两列,textlabel

  • text列的类型为ValueValue类型非常通用,表示标量值,例如字符串、整数、日期,甚至时间戳值。

  • label列的类型为ClassLabelClassLabel类型表示数据集中类的数量及其标签名称。当然,这意味着你会经常看到ClassLabel用于分类数据集。

有关可用数据类型的完整列表,请查看Features文档。

< > 在 GitHub 上更新