Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

数据集中心支持开源生态系统中的多个库。得益于 huggingface_hub Python 库,在中心上共享数据集变得轻而易举。我们很高兴地欢迎一组推动机器学习前进的开源库加入中心。

下表汇总了支持的库及其集成级别。

描述 从中心下载 推送到中心
Argilla 重视高质量数据的 AI 工程师和领域专家协作工具。
Dask 扩展现有 Python 和 PyData 生态系统的并行和分布式计算库。
数据集 🤗 Datasets 是一个用于访问和共享音频、计算机视觉和自然语言处理 (NLP) 数据集的库。
Distilabel 合成数据生成和 AI 反馈框架。
DuckDB 进程内 SQL OLAP 数据库管理系统。
FiftyOne FiftyOne 是一个用于图像、视频和 3D 数据整理和可视化的库。
Pandas Python 数据分析工具包。
Polars 基于 OLAP 查询引擎的 DataFrame 库。
Spark 分布式环境中的实时大规模数据处理工具。
WebDataset 用于编写大型数据集 I/O 管道的库。
< > 更新 在 GitHub 上