数据集查看器文档
PostgreSQL
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
PostgreSQL
PostgreSQL 是一个强大的开源对象关系数据库系统。它是应用开发者多年来最流行的数据库。pgai 是一个 PostgreSQL 扩展,允许您轻松地将 huggingface 数据集摄取到您的 PostgreSQL 数据库中。
运行已安装 pgai 的 PostgreSQL
您可以轻松运行一个包含 PostgreSQL 和 pgai 的 docker 容器。
docker run -d --name pgai -p 5432:5432 \ -v pg-data:/home/postgres/pgdata/data \ -e POSTGRES_PASSWORD=password timescale/timescaledb-ha:pg17
然后运行以下命令将 pgai 安装到数据库中。
docker exec -it pgai psql -c "CREATE EXTENSION ai CASCADE;"
然后,您可以使用容器中的 psql
命令行工具连接到数据库。
docker exec -it pgai psql
或者使用您最喜欢的 PostgreSQL 客户端,使用以下连接字符串:postgresql://postgres:password@localhost:5432/postgres
或者,您可以将 pgai 安装到现有的 PostgreSQL 数据库中。有关如何将 pgai 安装到现有 PostgreSQL 数据库中的说明,请按照 github 仓库 中的说明进行操作。
从数据集创建表
要将数据集加载到 PostgreSQL 中,您可以使用 ai.load_dataset
函数。此函数将创建一个 PostgreSQL 表,并以流式方式从 Hugging Face Hub 加载数据集。
select ai.load_dataset('rajpurkar/squad', table_name => 'squad');
现在您可以使用标准 SQL 查询表。
select * from squad limit 10;
有关 ai.load_dataset
函数的完整文档,请访问此处。
仅导入数据集的子集
您还可以通过指定 max_batches
参数来导入数据集的子集。如果数据集很大,并且您想使用较小的子集进行实验,这将非常有用。
SELECT ai.load_dataset('rajpurkar/squad', table_name => 'squad', batch_size => 100, max_batches => 1);
将数据集加载到现有表中
您还可以将数据集加载到现有表中。如果您想更好地控制数据模式或想预定义数据的索引和约束,这将非常有用。
select ai.load_dataset('rajpurkar/squad', table_name => 'squad', if_table_exists => 'append');