概述
数据集查看器会自动转换和发布 Hub 上小于 5GB 的公共数据集为 Parquet 文件。如果数据集已经采用 Parquet 格式,则会按原样发布。 Parquet 文件是基于列的,当您处理大数据时,它们会大放异彩。
对于私有数据集,如果存储库归 PRO 用户 或 企业 Hub 组织 所有,则会提供此功能。
您可以使用多种不同的库来处理已发布的 Parquet 文件
- ClickHouse,一种用于联机分析处理的列式数据库管理系统
- cuDF,一个 Python GPU DataFrame 库
- DuckDB,一个用于分析查询的高性能 SQL 数据库
- Pandas,一个用于处理数据结构的数据分析工具
- Polars,一个基于 Rust 的 DataFrame 库
- mlcroissant,一个用于从 Croissant 元数据加载数据集的库
- pyspark,Apache Spark 的 Python API