分词器文档

分词器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

分词器

快速、最先进的分词器,针对研究和生产进行了优化

🤗 分词器 提供了当今最常用的分词器的实现,重点关注性能和通用性。这些分词器也用于 🤗 转换器

主要功能:

  • 使用当今最常用的分词器训练新的词汇表并进行分词。
  • 极快(训练和分词),这得益于 Rust 实现。在服务器的 CPU 上分词 1GB 的文本只需不到 20 秒。
  • 易于使用,但也非常通用。
  • 专为研究和生产而设计。
  • 完整的对齐跟踪。即使使用破坏性规范化,也始终可以获取对应于任何标记的原始句子的部分。
  • 执行所有预处理:截断、填充、添加模型所需的特殊标记。