Hub 文档
Polars
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Polars
Polars 是一个基于 OLAP 查询引擎的内存 DataFrame 库。它速度快、易于使用,并且是开源的。
从 1.2.0
版本开始,Polars 为 Hugging Face 文件系统提供了*原生*支持。这意味着 Polars 查询优化器的所有优势(例如,谓词和投影下推)都会被应用,并且 Polars 只会加载完成查询所必需的数据。这显著加快了读取速度,尤其是对于大型数据集(请参阅优化)。
您可以使用 Hugging Face 路径(hf://
)来访问 Hub 上的数据。

入门
要开始使用,您只需在您的环境中执行 pip install
Polars。
pip install polars
安装 Polars 后,您可以直接根据 Hugging Face URL 查询数据集。这不需要其他任何依赖项。
import polars as pl
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")
Polars 提供了两种 API:一种是惰性 API (scan_parquet
),另一种是即时 API (read_parquet
)。我们建议对交互式工作负载使用即时 API,而对性能要求高的场景使用惰性 API,因为它能实现更好的查询优化。有关此主题的更多信息,请查看 Polars 用户指南。
Polars 支持使用通配符将多个文件一次性下载到一个 DataFrame 中。
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-*.parquet")
Hugging Face URL
一个 Hugging Face URL 可以由 username
和 dataset
名称这样构建:
hf://datasets/{username}/{dataset}/{path_to_file}
路径可以包含通配符模式,例如 **/*.parquet
,以查询所有匹配该模式的文件。此外,对于任何不被文件格式支持的文件,您可以使用 Hugging Face 提供的自动转换后的 parquet 文件,方法是使用 @~parquet 分支
。
hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file}