安装
Python
Rust
Node
🤗 分词器已在 Python 3.5+ 上进行了测试。
您应该在虚拟环境中安装 🤗 分词器。如果您不熟悉 Python 虚拟环境,请查看用户指南。使用您将要使用的 Python 版本创建一个虚拟环境并激活它。
使用pip安装
🤗 分词器可以使用 pip 如下安装
pip install tokenizers
从源代码安装
要使用此方法,您需要安装 Rust 语言。您可以按照官方指南了解更多信息。
如果您使用的是基于 Unix 的操作系统,则安装应该像运行以下命令一样简单
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
或者您可以使用以下命令轻松更新它
rustup update
安装好 rust 后,我们可以开始获取 🤗 分词器的源代码
git clone https://github.com/huggingface/tokenizers
然后我们进入 python 绑定文件夹
cd tokenizers/bindings/python
此时您应该已经激活了虚拟环境。为了编译 🤗 分词器,您需要安装 Python 包 setuptools_rust
pip install setuptools_rust
然后您可以使用以下命令在您的虚拟环境中编译和安装 🤗 分词器
python setup.py install