DuckDB
DuckDB 是一个进程内 SQL OLAP 数据库管理系统。您可以使用 Hugging Face 路径 (hf://
) 访问 Hub 上的数据
The DuckDB CLI (命令行界面) 是一个独立的、无需依赖项的可执行文件。还有其他可用于运行 DuckDB 的 API,包括 Python、C++、Go、Java、Rust 等。有关更多详细信息,请访问其 客户端 页面。
有关安装详细信息,请访问 安装页面。
从 v0.10.3
版本开始,DuckDB CLI 包含对通过使用 hf://
方案的 URL 访问 Hugging Face Hub 上的数据集的原生支持。以下是一些您可以使用此强大工具利用的功能
- 查询公共数据集和您自己的受限和私有数据集
- 分析数据集并执行 SQL 操作
- 组合数据集并将其导出为不同的格式
- 对嵌入数据集进行向量相似性搜索
- 对数据集实施全文搜索
有关 DuckDB 功能的完整列表,请访问 DuckDB 文档。
要启动 CLI,请在安装文件夹中执行以下命令
./duckdb
构建 Hugging Face URL
要访问 Hugging Face 数据集,请使用以下 URL 格式
hf://datasets/{my-username}/{my-dataset}/{path_to_file}
- my-username,数据集的用户或组织,例如
ibm
- my-dataset,数据集名称,例如:
duorc
- path_to_parquet_file,支持全局模式的 parquet 文件路径,例如
**/*.parquet
,以查询所有 parquet 文件
您可以使用 @~parquet 分支查询自动转换的 Parquet 文件,它对应于 refs/convert/parquet
版本。有关更多详细信息,请参阅 https://huggingface.co/docs/datasets-server/en/parquet#conversion-to-parquet 中的文档。
要引用数据集的 refs/convert/parquet
版本,请使用以下语法
hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file}
这是一个遵循上述语法的示例 URL
hf://datasets/ibm/duorc@~parquet/ParaphraseRC/test/0000.parquet
让我们从一个快速演示开始,查询数据集的所有行
FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;
或者使用传统的 SQL 语法
SELECT * FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;
在以下部分,我们将介绍您可以在 Hugging Face 数据集上使用 DuckDB 执行的更复杂的操作。
< > 在 GitHub 上更新