数据集查看器文档
概述
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
概述
数据集查看器自动转换并发布 Hub 上小于 5GB 的公共数据集为 Parquet 文件。如果数据集已是 Parquet 格式,则将按原样发布。Parquet 文件是列式的,当您处理大数据时,它们会大放异彩。
对于私有数据集,如果仓库由 PRO 用户 或 企业 Hub 组织 拥有,则提供此功能。
您可以使用几个不同的库来处理已发布的 Parquet 文件
- ClickHouse,一个面向列的数据库管理系统,用于在线分析处理
- cuDF,一个 Python GPU DataFrame 库
- DuckDB,一个用于分析查询的高性能 SQL 数据库
- Pandas,一个用于处理数据结构的数据分析工具
- Polars,一个基于 Rust 的 DataFrame 库
- PostgreSQL via pgai,一个强大的开源对象关系数据库系统
- mlcroissant,一个用于从 Croissant 元数据加载数据集的库
- pyspark,Apache Spark 的 Python API