Transformers 文档

Tiktoken 与 Transformers 的交互

Hugging Face's logo
加入 Hugging Face 社区

并访问增强的文档体验

开始使用

Tiktoken 和 Transformers 的交互

当从 Hub 上加载带有 tokenizer.model tiktoken 文件的模型 from_pretrained 时,🤗 transformers 无缝地集成了对 tiktoken 模型文件的支持,该文件会自动转换为我们的 快速分词器

已发布带有 tiktoken.model 的已知模型:

  • gpt2
  • llama3

示例用法

为了在 transformers 中加载 tiktoken 文件,请确保 tokenizer.model 文件是 tiktoken 文件,它将在加载 from_pretrained 时自动加载。以下是如何加载分词器和模型,它们可以从同一个文件中加载

from transformers import AutoTokenizer

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original") 
< > 在 GitHub 上更新