数据集查看器文档

概述

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

概述

数据集查看器自动转换并发布 Hub 上小于 5GB 的公共数据集为 Parquet 文件。如果数据集已是 Parquet 格式,则将按原样发布。Parquet 文件是列式的,当您处理大数据时,它们会大放异彩。

对于私有数据集,如果仓库由 PRO 用户企业 Hub 组织 拥有,则提供此功能。

您可以使用几个不同的库来处理已发布的 Parquet 文件

  • ClickHouse,一个面向列的数据库管理系统,用于在线分析处理
  • cuDF,一个 Python GPU DataFrame 库
  • DuckDB,一个用于分析查询的高性能 SQL 数据库
  • Pandas,一个用于处理数据结构的数据分析工具
  • Polars,一个基于 Rust 的 DataFrame 库
  • PostgreSQL via pgai,一个强大的开源对象关系数据库系统
  • mlcroissant,一个用于从 Croissant 元数据加载数据集的库
  • pyspark,Apache Spark 的 Python API
< > 在 GitHub 上更新