LLM 课程
加入 Hugging Face 社区
并获得增强的文档体验
章节末测验
让我们测试一下你在本章中学到的知识!
1. 何时应该训练新的分词器?
2. 当使用 train_new_from_iterator() 时,使用文本列表生成器而不是文本列表的列表有什么优势?
3. 使用“快速”分词器有什么优势?
4. token 分类管道如何处理跨越多个 token 的实体?
5. 问答管道如何处理长上下文?
6. 什么是归一化?
7. 子词分词器的预分词化是什么?
8. 选择适用于 BPE 分词模型的句子。
9. 选择适用于 WordPiece 分词模型的句子。
10. 选择适用于 Unigram 分词模型的句子。
< > 在 GitHub 上更新