Hub 文档

Polars

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Polars

Polars 是一个基于 OLAP 查询引擎的内存 DataFrame 库。它快速、易用且开源

1.2.0 版本开始,Polars 提供对 Hugging Face 文件系统的原生支持。这意味着 Polars 查询优化器(例如,谓词下推和投影下推)的所有优势都将应用,并且 Polars 将仅加载完成查询所需的数据。这显著加快了读取速度,特别是对于大型数据集(请参阅 优化

您可以使用 Hugging Face 路径 (hf://) 访问 Hub 上的数据

入门指南

要开始使用,您只需使用 pip install 将 Polars 安装到您的环境中

pip install polars

安装 Polars 后,您可以直接基于 Hugging Face URL 查询数据集。无需其他依赖项。

import polars as pl

pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")

Polars 提供两个 API:惰性 API (scan_parquet) 和 立即 API (read_parquet)。我们建议交互式工作负载使用 立即 API,而性能方面使用 惰性 API,因为它允许更好的查询优化。有关此主题的更多信息,请查看 Polars 用户指南

Polars 支持 globbing,可以一次性将多个文件下载到单个 DataFrame 中。

pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-*.parquet")

Hugging Face URL

Hugging Face URL 可以从 usernamedataset 名称 构造,如下所示

  • hf://datasets/{username}/{dataset}/{文件路径}

路径可以包含 globbing 模式,例如 **/*.parquet,以查询与该模式匹配的所有文件。此外,对于任何不支持的文件格式,您可以使用 Hugging Face 提供的自动转换的 parquet 文件,使用 @~parquet 分支

  • hf://datasets/{my-username}/{my-dataset}@~parquet/{文件路径}
< > 在 GitHub 上更新