Tokenizers 文档

安装

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

安装

Python
Rust
Node

🤗 Tokenizers 在 Python 3.5+ 上进行了测试。

你应该在虚拟环境中安装 🤗 Tokenizers。如果你不熟悉 Python 虚拟环境,请查看用户指南。使用你要使用的 Python 版本创建一个虚拟环境并激活它。

使用 pip 安装

可以使用 pip 安装 🤗 Tokenizers,如下所示

pip install tokenizers

从源代码安装

要使用此方法,你需要安装 Rust 语言。你可以参考官方指南了解更多信息。

如果你使用的是基于 Unix 的操作系统,安装应该像运行以下命令一样简单

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

或者你可以使用以下命令轻松更新它

rustup update

一旦 Rust 安装完成,我们就可以开始检索 🤗 Tokenizers 的源代码

git clone https://github.com/huggingface/tokenizers

然后我们进入 python bindings 文件夹

cd tokenizers/bindings/python

此时你应该已经激活了你的虚拟环境。为了编译 🤗 Tokenizers,你需要

pip install -e .
< > 在 GitHub 上更新