Tokenizers 文档

分词器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

分词器

快速、最先进的分词器,为研究和生产环境优化

🤗 Tokenizers 提供了当今最常用的分词器的实现,重点关注性能和多功能性。 这些分词器也用于 🤗 Transformers

主要特性:

  • 训练新的词汇表并进行分词,使用当今最常用的分词器。
  • 极其快速(包括训练和分词),这得益于 Rust 实现。 在服务器的 CPU 上,对 1 GB 的文本进行分词只需不到 20 秒。
  • 易于使用,而且功能极其多样。
  • 专为研究和生产而设计。
  • 完全对齐跟踪。 即使使用破坏性归一化,也始终可以获得与任何 token 相对应的原始句子的部分。
  • 完成所有预处理:截断、填充、添加模型所需的特殊 token。
< > 在 GitHub 上更新