您正在查看 主分支 版本,需要从源代码安装. 如果您想使用常规 pip 安装,请查看最新稳定版本 (v0.8.8).
加入 Hugging Face 社区
并获得增强型文档体验
开始使用
句子转换器
此任务让您能够轻松地使用您自己的数据集训练或微调句子转换器模型。
AutoTrain 支持以下类型的句子转换器微调
pair
:具有两个句子(锚点和正例)的数据集pair_class
:具有两个句子(前提和假设)和目标标签的数据集pair_score
:具有两个句子(句子 1 和句子 2)和目标分数的数据集triplet
:具有三个句子(锚点、正例和负例)的数据集qa
:具有两个句子(查询和答案)的数据集
数据格式
句子转换器微调接受 CSV/JSONL 格式的数据。您也可以使用 Hugging Face Hub 上的数据集。
pair
对于 pair
训练,数据应采用以下格式
锚点 | 正例 |
---|---|
你好 | 嗨 |
你好吗? | 我很好 |
你叫什么名字? | 我叫 Abhishek |
哪种编程语言最好? | Python |
pair_class
对于 pair_class
训练,数据应采用以下格式
前提 | 假设 | 标签 |
---|---|---|
你好 | 嗨 | 1 |
你好吗? | 我很好 | 0 |
你叫什么名字? | 我叫 Abhishek | 1 |
哪种编程语言最好? | Python | 1 |
pair_score
对于 pair_score
训练,数据应采用以下格式
句子1 | 句子2 | 分数 |
---|---|---|
你好 | 嗨 | 0.8 |
你好吗? | 我很好 | 0.2 |
你叫什么名字? | 我叫 Abhishek | 0.9 |
哪种编程语言最好? | Python | 0.7 |
triplet
对于 triplet
训练,数据应采用以下格式
锚点 | 正例 | 负样本 |
---|---|---|
你好 | 嗨 | 再见 |
你好吗? | 我很好 | 我不好 |
你叫什么名字? | 我叫 Abhishek | 关你什么事? |
哪种编程语言最好? | Python | Javascript |
qa
对于 qa
训练,数据应采用以下格式
查询 | 答案 |
---|---|
你好 | 嗨 |
你好吗? | 我很好 |
你叫什么名字? | 我叫 Abhishek |
哪种编程语言最好? | Python |