数据集查看器文档
概览
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
概述
数据集查看器自动将 Hub 上小于 5GB 的公共数据集转换为 Parquet 文件并发布。如果数据集已经是 Parquet 格式,则会按原样发布。Parquet 文件是列式存储的,当处理大数据时,它们表现出色。
对于私有数据集,如果存储库由专业用户或企业 Hub 组织拥有,则提供该功能。
有几种不同的库可用于处理已发布的 Parquet 文件
- ClickHouse,一个用于在线分析处理的列式数据库管理系统
- cuDF,一个 Python GPU DataFrame 库
- DuckDB,一个用于分析查询的高性能 SQL 数据库
- Pandas,一个用于处理数据结构的数据分析工具
- Polars,一个基于 Rust 的 DataFrame 库
- PostgreSQL via pgai,一个功能强大的开源对象关系数据库系统
- mlcroissant,一个用于从 Croissant 元数据加载数据集的库
- pyspark,Apache Spark 的 Python API