数据集查看器文档

概述

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

概述

数据集查看器会自动转换和发布 Hub 上小于 5GB 的公共数据集为 Parquet 文件。如果数据集已经采用 Parquet 格式,则会按原样发布。 Parquet 文件是基于列的,当您处理大数据时,它们会大放异彩。

对于私有数据集,如果存储库归 PRO 用户企业 Hub 组织 所有,则会提供此功能。

您可以使用多种不同的库来处理已发布的 Parquet 文件

  • ClickHouse,一种用于联机分析处理的列式数据库管理系统
  • cuDF,一个 Python GPU DataFrame 库
  • DuckDB,一个用于分析查询的高性能 SQL 数据库
  • Pandas,一个用于处理数据结构的数据分析工具
  • Polars,一个基于 Rust 的 DataFrame 库
  • mlcroissant,一个用于从 Croissant 元数据加载数据集的库
  • pyspark,Apache Spark 的 Python API
< > 在 GitHub 上更新