数据集查看器文档
PostgreSQL
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
PostgreSQL
PostgreSQL 是一个功能强大的开源对象关系数据库系统。它连续几年成为应用开发人员最流行的数据库。pgai 是一个 PostgreSQL 扩展,允许您轻松地将 Hugging Face 数据集摄取到您的 PostgreSQL 数据库中。
安装 pgai 后运行 PostgreSQL
您可以轻松运行包含 PostgreSQL 和 pgai 的 Docker 容器。
docker run -d --name pgai -p 5432:5432 \ -v pg-data:/home/postgres/pgdata/data \ -e POSTGRES_PASSWORD=password timescale/timescaledb-ha:pg17
然后运行以下命令将 pgai 安装到数据库中。
docker exec -it pgai psql -c "CREATE EXTENSION ai CASCADE;"
然后您可以使用容器中的 psql
命令行工具连接到数据库。
docker exec -it pgai psql
或者使用您喜欢的 PostgreSQL 客户端,使用以下连接字符串:postgresql://postgres:password@localhost:5432/postgres
另外,您也可以将 pgai 安装到现有的 PostgreSQL 数据库中。有关如何将 pgai 安装到现有 PostgreSQL 数据库的说明,请遵循 GitHub 仓库中的说明。
从数据集创建表
要将数据集加载到 PostgreSQL 中,您可以使用 ai.load_dataset
函数。此函数将创建一个 PostgreSQL 表,并以流式方式从 Hugging Face Hub 加载数据集。
select ai.load_dataset('rajpurkar/squad', table_name => 'squad');
您现在可以使用标准 SQL 查询该表。
select * from squad limit 10;
ai.load_dataset
函数的完整文档可在此处找到。
只导入数据集的子集
您还可以通过指定 max_batches
参数来导入数据集的子集。如果数据集很大并且您想尝试较小的子集,这将非常有用。
SELECT ai.load_dataset('rajpurkar/squad', table_name => 'squad', batch_size => 100, max_batches => 1);
将数据集加载到现有表中
您还可以将数据集加载到现有表中。如果您希望更好地控制数据模式或希望预定义数据上的索引和约束,这将非常有用。
select ai.load_dataset('rajpurkar/squad', table_name => 'squad', if_table_exists => 'append');