分词器文档

安装

Hugging Face's logo
加入Hugging Face社区

并获取增强型文档体验

开始使用

安装

Python
Rust
Node

🤗 分词器已在 Python 3.5+ 上进行了测试。

您应该在虚拟环境中安装 🤗 分词器。如果您不熟悉 Python 虚拟环境,请查看用户指南。使用您将要使用的 Python 版本创建一个虚拟环境并激活它。

使用pip安装

🤗 分词器可以使用 pip 如下安装

pip install tokenizers

从源代码安装

要使用此方法,您需要安装 Rust 语言。您可以按照官方指南了解更多信息。

如果您使用的是基于 Unix 的操作系统,则安装应该像运行以下命令一样简单

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

或者您可以使用以下命令轻松更新它

rustup update

安装好 rust 后,我们可以开始获取 🤗 分词器的源代码

git clone https://github.com/huggingface/tokenizers

然后我们进入 python 绑定文件夹

cd tokenizers/bindings/python

此时您应该已经激活了虚拟环境。为了编译 🤗 分词器,您需要安装 Python 包 setuptools_rust

pip install setuptools_rust

然后您可以使用以下命令在您的虚拟环境中编译和安装 🤗 分词器

python setup.py install