数据集查看器文档

概览

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

概述

数据集查看器自动将 Hub 上小于 5GB 的公共数据集转换为 Parquet 文件并发布。如果数据集已经是 Parquet 格式,则会按原样发布。Parquet 文件是列式存储的,当处理大数据时,它们表现出色。

对于私有数据集,如果存储库由专业用户企业 Hub 组织拥有,则提供该功能。

有几种不同的库可用于处理已发布的 Parquet 文件

  • ClickHouse,一个用于在线分析处理的列式数据库管理系统
  • cuDF,一个 Python GPU DataFrame 库
  • DuckDB,一个用于分析查询的高性能 SQL 数据库
  • Pandas,一个用于处理数据结构的数据分析工具
  • Polars,一个基于 Rust 的 DataFrame 库
  • PostgreSQL via pgai,一个功能强大的开源对象关系数据库系统
  • mlcroissant,一个用于从 Croissant 元数据加载数据集的库
  • pyspark,Apache Spark 的 Python API
< > 在 GitHub 上更新