Hub 文档

Polars

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Polars

Polars 是一个基于 OLAP 查询引擎的内存 DataFrame 库。它速度快、易于使用,并且是开源的。

1.2.0 版本开始,Polars 为 Hugging Face 文件系统提供了*原生*支持。这意味着 Polars 查询优化器的所有优势(例如,谓词和投影下推)都会被应用,并且 Polars 只会加载完成查询所必需的数据。这显著加快了读取速度,尤其是对于大型数据集(请参阅优化)。

您可以使用 Hugging Face 路径(hf://)来访问 Hub 上的数据。

入门

要开始使用,您只需在您的环境中执行 pip install Polars。

pip install polars

安装 Polars 后,您可以直接根据 Hugging Face URL 查询数据集。这不需要其他任何依赖项。

import polars as pl

pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")

Polars 提供了两种 API:一种是惰性 API (scan_parquet),另一种是即时 API (read_parquet)。我们建议对交互式工作负载使用即时 API,而对性能要求高的场景使用惰性 API,因为它能实现更好的查询优化。有关此主题的更多信息,请查看 Polars 用户指南

Polars 支持使用通配符将多个文件一次性下载到一个 DataFrame 中。

pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-*.parquet")

Hugging Face URL

一个 Hugging Face URL 可以由 usernamedataset 名称这样构建:

  • hf://datasets/{username}/{dataset}/{path_to_file}

路径可以包含通配符模式,例如 **/*.parquet,以查询所有匹配该模式的文件。此外,对于任何不被文件格式支持的文件,您可以使用 Hugging Face 提供的自动转换后的 parquet 文件,方法是使用 @~parquet 分支

  • hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file}
< > 在 GitHub 上更新