分词器文档
分词器
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
分词器
为研究和生产而优化的、最先进的快速分词器
🤗 Tokenizers 库提供了当今最常用分词器的实现,重点关注性能和通用性。这些分词器也被用于 🤗 Transformers。
主要特点:
- 使用当今最常用的分词器来训练新词汇表和进行分词。
- 得益于 Rust 实现,速度极快(包括训练和分词)。在服务器 CPU 上,对 1GB 的文本进行分词耗时不到 20 秒。
- 易于使用,同时也极其通用。
- 专为研究和生产而设计。
- 完整的对齐跟踪。即使进行了破坏性的规范化,也始终可以获取到与任意词元对应的原始句子部分。
- 完成所有预处理:截断、填充、添加模型所需的特殊词元。