库
数据集中心支持开源生态系统中的多个库。得益于 huggingface_hub Python 库,在中心上共享数据集变得轻而易举。我们很高兴地欢迎一组推动机器学习前进的开源库加入中心。
下表汇总了支持的库及其集成级别。
库 | 描述 | 从中心下载 | 推送到中心 |
---|---|---|---|
Argilla | 重视高质量数据的 AI 工程师和领域专家协作工具。 | ✅ | ✅ |
Dask | 扩展现有 Python 和 PyData 生态系统的并行和分布式计算库。 | ✅ | ✅ |
数据集 | 🤗 Datasets 是一个用于访问和共享音频、计算机视觉和自然语言处理 (NLP) 数据集的库。 | ✅ | ✅ |
Distilabel | 合成数据生成和 AI 反馈框架。 | ✅ | ✅ |
DuckDB | 进程内 SQL OLAP 数据库管理系统。 | ✅ | ✅ |
FiftyOne | FiftyOne 是一个用于图像、视频和 3D 数据整理和可视化的库。 | ✅ | ✅ |
Pandas | Python 数据分析工具包。 | ✅ | ✅ |
Polars | 基于 OLAP 查询引擎的 DataFrame 库。 | ✅ | ✅ |
Spark | 分布式环境中的实时大规模数据处理工具。 | ✅ | ✅ |
WebDataset | 用于编写大型数据集 I/O 管道的库。 | ✅ | ❌ |