Hub 文档
文件格式
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
文件格式
Polars 支持从 Hugging Face 读取以下文件格式:
以下示例仅展示默认设置。使用上方链接可查看 API 参考指南中所有可用参数。
Parquet
Parquet 是首选文件格式,因为它在文件中存储了带有类型信息的模式。这避免了解析时的任何歧义并加快了读取速度。要使用 Polars 读取 Parquet 文件,请使用 read_parquet
函数
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")
CSV
可以使用 read_csv
函数读取 CSV 文件
pl.read_csv("hf://datasets/lhoestq/demo1/data/train.csv")
JSON
Polars 支持使用 read_ndjson
函数读取以换行符分隔的 JSON(也称为 json lines)
pl.read_ndjson("hf://datasets/proj-persona/PersonaHub/persona.jsonl")