数据集查看器文档

PostgreSQL

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

PostgreSQL

PostgreSQL 是一个功能强大的开源对象关系数据库系统。它连续几年成为应用开发人员最流行的数据库。pgai 是一个 PostgreSQL 扩展,允许您轻松地将 Hugging Face 数据集摄取到您的 PostgreSQL 数据库中。

安装 pgai 后运行 PostgreSQL

您可以轻松运行包含 PostgreSQL 和 pgai 的 Docker 容器。

docker run -d --name pgai -p 5432:5432 \
-v pg-data:/home/postgres/pgdata/data \
-e POSTGRES_PASSWORD=password timescale/timescaledb-ha:pg17

然后运行以下命令将 pgai 安装到数据库中。

docker exec -it pgai psql -c "CREATE EXTENSION ai CASCADE;"

然后您可以使用容器中的 psql 命令行工具连接到数据库。

docker exec -it pgai psql

或者使用您喜欢的 PostgreSQL 客户端,使用以下连接字符串:postgresql://postgres:password@localhost:5432/postgres

另外,您也可以将 pgai 安装到现有的 PostgreSQL 数据库中。有关如何将 pgai 安装到现有 PostgreSQL 数据库的说明,请遵循 GitHub 仓库中的说明。

从数据集创建表

要将数据集加载到 PostgreSQL 中,您可以使用 ai.load_dataset 函数。此函数将创建一个 PostgreSQL 表,并以流式方式从 Hugging Face Hub 加载数据集。

select ai.load_dataset('rajpurkar/squad', table_name => 'squad');

您现在可以使用标准 SQL 查询该表。

select * from squad limit 10;

ai.load_dataset 函数的完整文档可在此处找到。

只导入数据集的子集

您还可以通过指定 max_batches 参数来导入数据集的子集。如果数据集很大并且您想尝试较小的子集,这将非常有用。

SELECT ai.load_dataset('rajpurkar/squad', table_name => 'squad', batch_size => 100, max_batches => 1);

将数据集加载到现有表中

您还可以将数据集加载到现有表中。如果您希望更好地控制数据模式或希望预定义数据上的索引和约束,这将非常有用。

select ai.load_dataset('rajpurkar/squad', table_name => 'squad', if_table_exists => 'append');
< > 在 GitHub 上更新