Tokenizers 文档
分词器
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
分词器
快速、最先进的分词器,为研究和生产环境优化
🤗 Tokenizers 提供了当今最常用的分词器的实现,重点关注性能和多功能性。 这些分词器也用于 🤗 Transformers。
主要特性:
- 训练新的词汇表并进行分词,使用当今最常用的分词器。
- 极其快速(包括训练和分词),这得益于 Rust 实现。 在服务器的 CPU 上,对 1 GB 的文本进行分词只需不到 20 秒。
- 易于使用,而且功能极其多样。
- 专为研究和生产而设计。
- 完全对齐跟踪。 即使使用破坏性归一化,也始终可以获得与任何 token 相对应的原始句子的部分。
- 完成所有预处理:截断、填充、添加模型所需的特殊 token。