Hub 文档
Polars
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Polars
Polars 是一个基于 OLAP 查询引擎的内存 DataFrame 库。它快速、易用且开源。
从 1.2.0
版本开始,Polars 提供对 Hugging Face 文件系统的原生支持。这意味着 Polars 查询优化器(例如,谓词下推和投影下推)的所有优势都将应用,并且 Polars 将仅加载完成查询所需的数据。这显著加快了读取速度,特别是对于大型数据集(请参阅 优化)
您可以使用 Hugging Face 路径 (hf://
) 访问 Hub 上的数据

入门指南
要开始使用,您只需使用 pip install
将 Polars 安装到您的环境中
pip install polars
安装 Polars 后,您可以直接基于 Hugging Face URL 查询数据集。无需其他依赖项。
import polars as pl
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")
Polars 提供两个 API:惰性 API (scan_parquet
) 和 立即 API (read_parquet
)。我们建议交互式工作负载使用 立即 API,而性能方面使用 惰性 API,因为它允许更好的查询优化。有关此主题的更多信息,请查看 Polars 用户指南。
Polars 支持 globbing,可以一次性将多个文件下载到单个 DataFrame 中。
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-*.parquet")
Hugging Face URL
Hugging Face URL 可以从 username
和 dataset
名称 构造,如下所示
hf://datasets/{username}/{dataset}/{文件路径}
路径可以包含 globbing 模式,例如 **/*.parquet
,以查询与该模式匹配的所有文件。此外,对于任何不支持的文件格式,您可以使用 Hugging Face 提供的自动转换的 parquet 文件,使用 @~parquet
分支
hf://datasets/{my-username}/{my-dataset}@~parquet/{文件路径}