AutoTrain 文档

句子转换器

您正在查看 主分支 版本,需要从源代码安装. 如果您想使用常规 pip 安装,请查看最新稳定版本 (v0.8.8).
Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

句子转换器

此任务让您能够轻松地使用您自己的数据集训练或微调句子转换器模型。

AutoTrain 支持以下类型的句子转换器微调

  • pair:具有两个句子(锚点和正例)的数据集
  • pair_class:具有两个句子(前提和假设)和目标标签的数据集
  • pair_score:具有两个句子(句子 1 和句子 2)和目标分数的数据集
  • triplet:具有三个句子(锚点、正例和负例)的数据集
  • qa:具有两个句子(查询和答案)的数据集

数据格式

句子转换器微调接受 CSV/JSONL 格式的数据。您也可以使用 Hugging Face Hub 上的数据集。

pair

对于 pair 训练,数据应采用以下格式

锚点 正例
你好
你好吗? 我很好
你叫什么名字? 我叫 Abhishek
哪种编程语言最好? Python

pair_class

对于 pair_class 训练,数据应采用以下格式

前提 假设 标签
你好 1
你好吗? 我很好 0
你叫什么名字? 我叫 Abhishek 1
哪种编程语言最好? Python 1

pair_score

对于 pair_score 训练,数据应采用以下格式

句子1 句子2 分数
你好 0.8
你好吗? 我很好 0.2
你叫什么名字? 我叫 Abhishek 0.9
哪种编程语言最好? Python 0.7

triplet

对于 triplet 训练,数据应采用以下格式

锚点 正例 负样本
你好 再见
你好吗? 我很好 我不好
你叫什么名字? 我叫 Abhishek 关你什么事?
哪种编程语言最好? Python Javascript

qa

对于 qa 训练,数据应采用以下格式

查询 答案
你好
你好吗? 我很好
你叫什么名字? 我叫 Abhishek
哪种编程语言最好? Python
< > GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.