Hub 文档

DuckDB

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

DuckDB

DuckDB 是一个进程内 SQL OLAP 数据库管理系统。您可以使用 Hugging Face 路径(hf://)访问 Hub 上的数据。

DuckDB CLI (命令行界面) 是一个独立的、无依赖的可执行文件。还有其他可用于运行 DuckDB 的 API,包括 Python、C++、Go、Java、Rust 等。更多详情,请访问其客户端页面。

关于安装详情,请访问安装页面

v0.10.3 版本开始,DuckDB CLI 原生支持通过 hf:// 协议的 URL 访问 Hugging Face Hub 上的数据集。以下是您可以使用此强大工具的一些功能:

  • 查询公共数据集以及您自己的受限和私有数据集
  • 分析数据集并执行 SQL 操作
  • 合并数据集并将其导出为不同格式
  • 在嵌入数据集中进行向量相似性搜索
  • 在数据集上实现全文搜索

要获取 DuckDB 功能的完整列表,请访问 DuckDB 文档

要启动 CLI,请在安装文件夹中执行以下命令:

./duckdb

构建 Hugging Face URL

要访问 Hugging Face 数据集,请使用以下 URL 格式:

hf://datasets/{my-username}/{my-dataset}/{path_to_file} 
  • my-username,数据集的用户或组织,例如 ibm
  • my-dataset,数据集名称,例如:duorc
  • path_to_parquet_file,parquet 文件的路径,支持 glob 模式,例如 **/*.parquet,用于查询所有 parquet 文件

您可以使用 @~parquet 分支查询自动转换的 Parquet 文件,该分支对应于 refs/convert/parquet 修订版。更多详情,请参阅文档:https://huggingface.co/docs/datasets-server/en/parquet#conversion-to-parquet

要引用数据集的 refs/convert/parquet 修订版,请使用以下语法:

hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file} 

以下是遵循上述语法的示例 URL:

hf://datasets/ibm/duorc@~parquet/ParaphraseRC/test/0000.parquet

让我们从一个快速演示开始,查询数据集的所有行:

FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;

或使用传统的 SQL 语法:

SELECT * FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;

在接下来的章节中,我们将介绍更多您可以在 Hugging Face 数据集上使用 DuckDB 执行的复杂操作。

< > 在 GitHub 上更新