分词器文档

分词器

分词器

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

分词器

为研究和生产而优化的、最先进的快速分词器

🤗 Tokenizers 库提供了当今最常用分词器的实现，重点关注性能和通用性。这些分词器也被用于 🤗 Transformers。

主要特点：

使用当今最常用的分词器来训练新词汇表和进行分词。
得益于 Rust 实现，速度极快（包括训练和分词）。在服务器 CPU 上，对 1GB 的文本进行分词耗时不到 20 秒。
易于使用，同时也极其通用。
专为研究和生产而设计。
完整的对齐跟踪。即使进行了破坏性的规范化，也始终可以获取到与任意词元对应的原始句子部分。
完成所有预处理：截断、填充、添加模型所需的特殊词元。

< > 在 GitHub 上更新

快速入门→

© . This site is unofficial and not affiliated with Hugging Face, Inc.