Tiktoken 和 Transformers 的交互
当从 Hub 上加载带有 tokenizer.model
tiktoken 文件的模型 from_pretrained
时,🤗 transformers 无缝地集成了对 tiktoken 模型文件的支持,该文件会自动转换为我们的 快速分词器。
已发布带有 tiktoken.model 的已知模型:
- gpt2
- llama3
示例用法
为了在 transformers
中加载 tiktoken
文件,请确保 tokenizer.model
文件是 tiktoken 文件,它将在加载 from_pretrained
时自动加载。以下是如何加载分词器和模型,它们可以从同一个文件中加载
from transformers import AutoTokenizer
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original")