将大规模文本嵌入基准扩展到法语:数据集
Mathieu Ciancone、Imene Kerboua、Marion Schaeffer、Gabriel Sequeira 和 Wissam Siblini
引言
随着自然语言应用最近的蓬勃发展,选择一种能够生成高质量文本表示的方法变得至关重要。为了帮助实现这一目标,引入了大规模文本嵌入基准(MTEB)[1]。它允许在各种NLP任务和数据集上评估和比较文本嵌入方法。嵌入是一种密集向量表示,它捕获文本的语义含义,可用于文本分类、信息检索、机器翻译等下游NLP任务。MTEB最初比较了8种不同任务的33种不同模型:双语文本挖掘、分类、对分类、检索、重排序、聚类、摘要和语义文本相似性。总的来说,它在各个任务中收集了58个数据集,其中大多数是英语。
我们将这项工作扩展到法语。该项目可在以下链接中找到👉 https://github.com/Lyon-NLP/mteb-french。为了比较从法语文本中获得的嵌入,我们确定了14个相关数据集,并创建了3个新的数据集,以针对MTEB中使用的任务集。当然,这些数据集也可以用于广泛的其他应用。
本系列的第一篇文章重点介绍这些数据集、它们的特征以及每项任务背后的目标。通过将所有信息集中在一处,我们希望能够更轻松地搜索法语NLP数据集,并鼓励对法语嵌入进行评估。
因此,如果您正在构建针对法语的NLP模型或应用程序,那么本文就是为您准备的!😉
数据集
在MTEB中,评估分为上述8个不同的任务。我们将根据这8个任务来展示数据集,但请记住,给定数据集可能以其他方式使用。

双语文本挖掘
给定两组句子,此任务旨在从第二组中为第一组的每个句子找到最佳匹配。通常,第二组包含第一组句子的翻译。对于MTEB评估,模型用于嵌入每个句子,然后使用余弦相似度找到最接近的对。此评估的主要计算指标是F1分数。
Diabla: 我们使用已在HuggingFace上提供的DiaBLa数据集。此数据集包含一组非正式书面对话,用于评估非正式文本的英法机器翻译[2]。数据集包含从144个对话中提取的5700多对文本。
Flores: Flores是用于英语与低资源语言之间机器翻译的基准数据集[3,4,5]。我们使用此数据集的法语子集,换句话说,是英译法文本。它包含大约997个样本。
分类
对于分类任务,我们评估哪些嵌入模型最适合根据句子的向量表示识别其所属类别。为此,使用模型嵌入训练集和测试集。然后,在训练集上训练逻辑回归分类器,并使用准确率指标在测试集上进行评估。
亚马逊评论:我们使用亚马逊评论的法语子集。该数据集包含20万个训练集样本,以及5千个验证集和测试集样本。产品评论的文本根据0到4的关联评分进行分类。
数据集链接:https://huggingface.co/datasets/mteb/amazon_reviews_multi/viewer/fr
MasakhaNEWS: MasakhaNEWS 是一个用于新闻主题分类的公共数据集,包含16种非洲语言的新闻 [6]。我们使用该数据集的法语子集,它包含1480多个训练集样本,211个验证集样本和422个测试集样本。该数据集为每个文本提供了标签(5个不同类别:体育、商业等)。样本均匀分布在4个类别中(每个类别占23%的样本),但最后一个类别代表不足(占5%的样本)。
数据集链接:https://huggingface.co/datasets/masakhane/masakhanews/viewer/fra
Massive Intent: 我们使用亚马逊大型意图数据集的法语子集 [7,8]。该数据集旨在从给定句子中检测用户意图。数据是从Alexa等虚拟助手的使用中收集的。它包含11,500多个训练集样本,2030个验证集样本和2970个测试集样本。
数据集链接:https://huggingface.co/datasets/mteb/amazon_massive_intent/viewer/fr
MTOP: 如上所述,我们选择了一个多语言面向任务语义解析数据集的子集[9]。它包含超过11800个训练样本、1580个验证样本和3190个测试样本。该数据集是重复的,一份带有10个标签(mtob_domain),另一份带有111个标签(mtob_intent)。
数据集链接:https://huggingface.co/datasets/mteb/mtop_intent,https://huggingface.co/datasets/mteb/mtop_domain
对分类
在这个任务中,给定一对句子,并附带一个标签,表示这对句子是重复的还是释义。使用模型嵌入两个句子,并使用余弦相似度、欧几里得距离等多种距离度量计算它们之间的距离。此任务的评估指标是基于余弦相似度的平均精度。
Opusparcus: 该数据集是六种语言的释义语料库,其中释义来自电影和电视节目的字幕[10]。我们评估法语数据集法语子集的test.full和validation.full拆分上的嵌入。每个部分分别包含1670个样本和1630个样本。
数据集链接:https://huggingface.co/datasets/GEM/opusparcus/viewer/fr.100
检索
针对查询,检索任务旨在利用向量间的余弦相似度,从文档语料库中找到最相关的文档(通常是段落)。针对此任务的模型基准测试对于它们在检索增强生成(RAG)管道中的进一步应用尤其重要。此任务的评估使用多个指标,主要指标是归一化折扣累积增益(NDCG@10)。
AlloProf: 此问答数据集是从魁北克的小学和高中帮助网站Alloprof收集的。它包含近3万个问答对,涵盖各种学校科目[11]。超过一半的答案还包含指向涉及问题主题的参考页面的链接。数据集已针对检索任务进行了清理和格式化:仅保留提及参考页面的法语问题,并且所有参考页面已合并为语料库数据集。
数据集链接:https://huggingface.co/datasets/lyon-nlp/alloprof (已格式化), https://huggingface.co/datasets/antoinelb7/alloprof (原始)
Syntec: 该数据集是根据Syntec集体谈判协议构建的,最初目的是用于检索任务。这个相当小的数据集分为两个子集:100个手动创建的问题映射到包含答案的文章,以及集体谈判协议中的90篇文章。
数据集链接:https://huggingface.co/datasets/lyon-nlp/mteb-fr-retrieval-syntec-s2p
BSARD: 比利时法定条款检索数据集(BSARD)是一个法语原生数据集,最初用于法律领域的信息检索[12]。它由1100个由比利时公民提出的法律问题组成,并由经验丰富的法学家从比利时法律的22600多条法定条款中标记出相关条款。对于不专注于法律领域的模型来说,这是一个特别困难的数据集。
数据集链接:https://huggingface.co/datasets/maastrichtlawtech/bsard
重排序
重排序任务的目标是根据给定查询对一小组文档的相关性进行排序。重排序任务通常用于推荐系统,或作为检索任务的补充。在MTEB的上下文中,目标是评估模型生成与文档对问题的相关性相关的余弦相似度的嵌入的能力。
为了评估此任务,原始MTEB基准的每个数据集都由一个查询组成,并与一些积极(即相关)文档和消极(即不相关)文档配对。尽管我们努力了,但我们没有找到任何相关的法语数据集,其结构如此。因此,我们决定使用AlloProf和Syntec检索数据集构建我们自己的数据集。这些数据集已经有查询和积极文档,因此我们应用以下过程生成消极文档。文档和查询的语料库已使用嵌入模型进行嵌入。然后,我们计算了每个文档和查询之间的余弦相似度。对于查询,不在前10个相似度中的文档被标记为消极文档。
AlloProf: 我们使用上述技术调整了Alloprof数据集,以适应重排序任务。有关此数据集的更多信息,请参阅其在检索部分中的描述。
数据集链接:https://huggingface.co/datasets/lyon-nlp/mteb-fr-reranking-alloprof-s2p
Syntec: 如上所述,该数据集的结构已修改以适应重排序任务。有关此数据集的更多信息,请参阅其在检索部分中的描述。
数据集链接:https://huggingface.co/datasets/lyon-nlp/mteb-fr-reranking-syntec-s2p
聚类
此任务尝试将句子或段落分组为有意义的簇。为此,对文本进行嵌入,并使用已知簇数的k-means模型。
用于对模型评分的指标是V-measure,它不依赖于聚类标签。
AlloProf: 对于此任务,文档可以根据其文本描述(字段text和title)聚类到不同的主题中。有关此数据集的更多信息,请参阅其在检索部分中的描述。
HAL: 该数据集是通过抓取 https://hal.science/ 构建的,该网站发布了各个领域的科学出版物。我们只保留了法语出版物,并提取了它们的 id、title 和 domain。总共有85,000篇出版物可以根据其主题领域(字段 domain)通过其 title 进行聚类。
数据集链接:https://huggingface.co/datasets/lyon-nlp/clustering-hal-s2s
MasakhaNEWS: 我们将这个多语言新闻主题分类数据集重新用于聚类。我们过滤了数据集,只保留了测试集的法语子集。总共有1500条新闻可以根据其主题(字段label)通过其文本描述(字段text和headline)进行聚类。有关此数据集的更多信息,请参阅其在分类部分中的描述。数据集链接:https://huggingface.co/datasets/masakhane/masakhanews/viewer/fra
MLSUM: 我们使用多语言摘要语料库(MLSUM)[12]的在线报纸进行聚类任务。我们过滤了数据集,只保留了测试集的法语子集。总共有15,800份在线报纸可以根据其主题通过其文本描述(字段text和title)进行聚类。
摘要
此任务旨在根据机器生成摘要与人工编写摘要的相似性来评分。为此,所有摘要都经过嵌入,并计算机器生成摘要与人工编写摘要之间的距离。最高的余弦相似度分数保留为机器生成摘要分数。使用皮尔逊和斯皮尔曼相关性与真实人工评估进行比较,以评估计算出的分数。此任务与STS任务接近。
SummEval: 该数据集包含来自CNN/DailyMail数据集的100篇新闻文章[13]。每篇新闻文章都附有10个人工编写的摘要和16个机器生成的摘要,并由8人标注了连贯性、一致性、流畅性和相关性。由于该数据集仅提供英文版本,我们使用DeepL将其翻译成法文。人工编写和机器生成的摘要都经过嵌入并使用余弦相似度进行比较,专家标注的平均相关性用作真实评估。
数据集链接:https://huggingface.co/datasets/lyon-nlp/summarization-summeval-fr-p2p
语义文本相似度(STS)
此任务旨在计算两个句子之间的相似度并给出连续分数。这里,句子对的相似度评分介于1到5之间(分数越低表示相似度越低,分数越高表示相似度越高)。通过皮尔逊和斯皮尔曼相关性将从嵌入生成的评分与标注评分进行比较。
STS Benchmark Multilingual: 该数据集由多个在SemEval 2012年至2017年STS任务中使用的英文数据集混合而成。它包括来自图片字幕、新闻标题和用户论坛的文本,作为句子对和它们的相似度评分。英文版已通过DeepL翻译成法文。我们使用了测试集中的1379个样本。
STS22 跨语言:该数据集包含新闻文章对,其相似度标记为0到5分。它包含10种语言。对于模型的法语评估,我们只使用法语子集,该子集由104对文章组成。
数据集链接:https://huggingface.co/datasets/mteb/sts22-crosslingual-sts/viewer/fr
SICK-FR: 涉及组合知识的句子(SICK)数据集包含大约10,000对英文句子,其中包括许多词汇、句法和语义现象的示例。每对句子都标有“含义相关性”分数(5分制)和蕴含关系(包含三个可能的黄金标签:蕴含、矛盾和中性)。为了本次基准测试的目的,我们使用SICK-FR:SICK的法语翻译,以及“含义相关性”分数。
结论
我们启动这项倡议是因为我们意识到,为法语应用程序选择合适的NLP方法通常很困难。当然,市面上有很多优秀的多语言模型。但仔细研究它们的训练过程就会发现,大部分训练数据实际上是英文的。由于评估这些模型的基准也都是英文的,因此很难评估它们在法语中的性能。
造成这种情况的一个原因可能是缺乏高质量的法语数据集。事实上,许多法语数据集要么过于专业化,无法在基准测试中使用,要么不是“即用型”格式,需要大量的清理和格式化工作。
识别和准备相关的法语数据集以用于MTEB-法语并非易事,我们希望这项工作能够帮助社区加速模型评估。MTEB-法语实施的下一步是识别要评估的相关模型。
所选模型及其选择理由将是下一篇文章的主题。敬请关注!😎
参考文献
[1] Muennighoff, Niklas 等人。“MTEB:大规模文本嵌入基准。” 欧洲计算语言学协会分会会议(2022)。
[2] Bawden, Rachel 等。“DiaBLa:用于机器翻译的双语自发书面对话语料库。” 语言资源与评估 55 (2019): 635 - 660。
[3] 团队,Nllb 等。“不让任何语言掉队:扩展以人为本的机器翻译。” ArXiv abs/2207.04672 (2022): n. 页。
[4] Goyal, Naman 等。“Flores-101 低资源和多语言机器翻译评估基准。” 计算语言学协会学报 10 (2021): 522-538。
[5] Guzmán, Francisco 等。“两个新的低资源机器翻译评估数据集:尼泊尔语-英语和僧伽罗语-英语。” ArXiv abs/1902.01382 (2019): n. pag。
[6] Adelani, David Ifeoluwa 等。“MasakhaNEWS: 非洲语言新闻主题分类。” ArXiv abs/2304.09972 (2023): 无页码。
[7] FitzGerald, Jack G. M. 等。“MASSIVE:一个包含51种类型多样语言的100万示例多语言自然语言理解数据集。” 计算语言学协会年会(2023)。
[8] Bastianelli, Emanuele 等。“SLURP: 语音理解资源包。” 自然语言处理经验方法会议 (EMNLP 2020)
[9] Xia, Menglin 和 Emilio Monti。“低资源语言的多语言神经语义解析。” 词汇和计算语义学会议(2021)。
[10] Creutz, Mathias。“六种语言的开放字幕释义语料库。” 语言资源和评估会议(LREC 2018)。
[11] Lefebvre-Brossard, Antoine 等。“Alloprof:一个新的法语问答教育数据集及其在信息检索案例研究中的应用。” ArXiv abs/2302.07738 (2023): n. pag。
[12] Louis, Antoine 等。“法文法规文章检索数据集。” 计算语言学协会年会(2021)。
[13] Scialom, Thomas 等。“MLSUM: 多语言摘要语料库。” 自然语言处理经验方法会议(2020)。
[14] Fabbri, A. R. 等。“SummEval:重新评估摘要评估。” 计算语言学协会学报 9 (2020): 391-409。