数据集查看器文档

PostgreSQL

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

PostgreSQL

PostgreSQL 是一个强大的开源对象关系数据库系统。它是应用开发者多年来最流行的数据库。pgai 是一个 PostgreSQL 扩展,允许您轻松地将 huggingface 数据集摄取到您的 PostgreSQL 数据库中。

运行已安装 pgai 的 PostgreSQL

您可以轻松运行一个包含 PostgreSQL 和 pgai 的 docker 容器。

docker run -d --name pgai -p 5432:5432 \
-v pg-data:/home/postgres/pgdata/data \
-e POSTGRES_PASSWORD=password timescale/timescaledb-ha:pg17

然后运行以下命令将 pgai 安装到数据库中。

docker exec -it pgai psql -c "CREATE EXTENSION ai CASCADE;"

然后,您可以使用容器中的 psql 命令行工具连接到数据库。

docker exec -it pgai psql

或者使用您最喜欢的 PostgreSQL 客户端,使用以下连接字符串:postgresql://postgres:password@localhost:5432/postgres

或者,您可以将 pgai 安装到现有的 PostgreSQL 数据库中。有关如何将 pgai 安装到现有 PostgreSQL 数据库中的说明,请按照 github 仓库 中的说明进行操作。

从数据集创建表

要将数据集加载到 PostgreSQL 中,您可以使用 ai.load_dataset 函数。此函数将创建一个 PostgreSQL 表,并以流式方式从 Hugging Face Hub 加载数据集。

select ai.load_dataset('rajpurkar/squad', table_name => 'squad');

现在您可以使用标准 SQL 查询表。

select * from squad limit 10;

有关 ai.load_dataset 函数的完整文档,请访问此处

仅导入数据集的子集

您还可以通过指定 max_batches 参数来导入数据集的子集。如果数据集很大,并且您想使用较小的子集进行实验,这将非常有用。

SELECT ai.load_dataset('rajpurkar/squad', table_name => 'squad', batch_size => 100, max_batches => 1);

将数据集加载到现有表中

您还可以将数据集加载到现有表中。如果您想更好地控制数据模式或想预定义数据的索引和约束,这将非常有用。

select ai.load_dataset('rajpurkar/squad', table_name => 'squad', if_table_exists => 'append');
< > 在 GitHub 上更新