分词器文档

安装

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

安装

Python
Rust
Node

🤗 Tokenizers 已在 Python 3.5+ 上测试通过。

您应该在虚拟环境中安装 🤗 Tokenizers。如果您不熟悉 Python 虚拟环境,请查看用户指南。使用您要使用的 Python 版本创建一个虚拟环境并激活它。

使用 pip 安装

🤗 Tokenizers 可以使用 pip 安装,如下所示:

pip install tokenizers

从源码安装

要使用此方法,您需要安装 Rust 语言。您可以参考官方指南获取更多信息。

如果您使用的是基于 Unix 的操作系统,安装过程应该像运行以下命令一样简单:

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

或者您可以用以下命令轻松更新它:

rustup update

Rust 安装后,我们就可以开始获取 🤗 Tokenizers 的源码了

git clone https://github.com/huggingface/tokenizers

然后我们进入 Python 绑定的文件夹

cd tokenizers/bindings/python

此时,您应该已经激活了您的虚拟环境。为了编译 🤗 Tokenizers,您需要

pip install -e .
< > 在 GitHub 上更新