Hugging Face
模型
数据集
空间
帖子
文档
解决方案
价格
登录
注册
NLP 课程文档
分词器,搞定!
NLP 课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散模型课程
3D 机器学习课程
游戏机器学习课程
NLP 课程
开源 AI 食谱
搜索文档
增强现实 (AR)
巴斯克语 (BN)
德语 (DE)
英语 (EN)
西班牙语 (ES)
波斯语 (FA)
法语 (FR)
格鲁吉亚语 (GJ)
希伯来语 (HE)
印地语 (HI)
印度尼西亚语 (ID)
意大利语 (IT)
日语 (JA)
韩语 (KO)
葡萄牙语 (PT)
俄语 (RU)
泰语 (TH)
土耳其语 (TR)
越南语 (VI)
简体中文 (ZH-CN)
繁体中文 (ZH-TW)
0. 设置
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微调预训练模型
4. 共享模型和分词器
5. 🤗 Datasets 库
6. 🤗 Tokenizers 库
简介
从旧分词器训练新分词器
快速分词器的特殊功能
快速分词器在问答管道中的应用
规范化和预分词
字节对编码 (BPE) 分词
WordPiece 分词
Unigram 分词
构建分词器,模块化
分词器,搞定!
章节末测验
7. 主要 NLP 任务
8. 如何寻求帮助
9. 构建和共享演示
新增
课程活动
加入 Hugging Face 社区
并获得增强型文档体验
协作模型、数据集和空间
使用加速推理获得更快的示例
在文档主题之间切换
注册
开始使用
分词器,搞定!
恭喜完成本章节!
在深入了解分词器之后,您应该
能够使用旧分词器作为模板训练新的分词器
了解如何使用偏移量将标记的位置映射到其原始文本范围
了解 BPE、WordPiece 和 Unigram 之间的区别
能够混合和匹配 🤗 Tokenizers 库提供的模块来构建自己的分词器
能够在 🤗 Transformers 库中使用该分词器
←
构建分词器,模块化
章节末测验
→
分词器,搞定!