MTEB 排行榜:用户指南和最佳实践

社区文章 发布于2024年3月13日

Mathieu Ciancone, Imene Kerboua, Marion Schaeffer, Gabriel Sequeira, 和 Wissam Siblini

MTEB [1] 是一个多任务、多语言嵌入模型比较基准。它以一个基于多个分数的排行榜的形式呈现,只有一个模型位居榜首!这是否能让你轻松选择适合你应用的正确模型?你想得美!本指南旨在提供如何巧妙利用 MTEB 的建议。由于我们的团队致力于提供法语基准测试 [2],所以示例将以法语 MTEB 为基础。尽管如此,这些建议适用于整个基准测试。

image/png

不要让那些分数误导你

MTEB 是一个排行榜。它显示分数。它没有显示什么?统计显著性。

MTEB 尽管是发现和比较模型的绝佳资源,但可能不像人们预期那样简单明了。截至目前(2024 年 3 月 1 日),许多 SOTA 模型已经过测试,其中大多数模型的平均分数都很接近。对于法语 MTEB,这些平均分数是在 26 个不同任务(英语 MTEB 为 56 个任务!)上计算的,并且没有提供标准差。即使排名靠前的模型看起来比其他模型好,但与排在其后的模型的分数差异可能不具有统计显著性。人们可以直接获取原始结果来计算统计指标。例如,我们进行了临界差异检验,发现在 p 值为 0.05 的情况下,法语 MTEB 排行榜当前排名前 9 的模型在统计上是等效的。这需要更多数据集才能看出统计显著性。

深入数据

不要只看模型在你感兴趣的任务上的平均分数。相反,要查看最能代表你用例的数据集上的单个分数。

假设你对法律领域的应用程序的检索感兴趣。法律语言非常特殊,在通用数据上训练的模型在你的应用程序中可能表现不佳。因此,与其只选择 MTEB 中检索任务的最佳模型,不如专门查看涉及包含法律相关内容的任务数据集。事实上,在SyntecBSARD [3] 等数据集上的分数可能更能代表模型在你数据上的性能。无需深入研究数据集的数据,大多数情况下,数据集卡片和简短预览会告诉你所需的一切。

考虑模型的特性

为你的应用使用显示最佳平均分数的模型可能很诱人。然而,模型有其固有的特性,这会导致其使用限制。确保这些限制与你的要求相符。

在选择榜首模型之前,请检查模型的特性:它的上下文窗口能处理多少个标记?模型的大小是多少?它是否在多语言数据上进行过训练?事实上,这些特性可能与你的应用程序的限制相冲突。例如,以下是你可能需要考虑的一些事项:

  • 计算能力:如果你需要在单 GPU 笔记本电脑上运行实验,请勿选择 7B 参数的模型,较小的模型可能更适合。
  • 输入令牌序列长度:如果你需要在小句子上执行句子相似度,则无需 32k 令牌的上下文窗口,sentence-camembert-large 的 128 令牌窗口可能就足够了。
  • 存储容量/延迟:如果你在 multilingual-e5-large [4] 的基础版和大型版之间犹豫不决,请问自己,检索平均分数相差 1 分是否值得将模型从 1.1 GB 增加到 2.2 GB,并将输出嵌入大小从 728 增加到 1024。

不要忘记 MTEB 是一个排行榜...

正如排行榜有时会做的那样,它鼓励不按规则竞争。

确实,请记住,许多提供商都希望他们的模型登上榜首,并且由于 MTEB 基于公共数据集,一些不当行为,如数据泄露或数据过拟合,可能会影响 MTEB 评估的准确性。因此,如果你发现一个看起来不错的模型,请深入研究模型的开发和训练设置:许多贡献者会努力提供详细的模型卡片,其中说明了模型的训练数据、用途或许可证。仔细查看这些细节,选择你感兴趣的模型以及 2 到 3 个次要选择,并在你的数据上运行一些测试,看看它是否仍然适用。

如何评估你的模型?

你可能想知道你的自定义模型与排行榜上的其他模型相比表现如何。

这很简单!只需按照这篇博客中描述的步骤操作即可。运行后,你应该会看到你的模型性能。如果你愿意,可以随时将结果添加到你的模型卡中,以便将其添加到排行榜。

感谢阅读,祝您 MTEB 浏览愉快! 🤗

参考书目

[1] Niklas Muennighoff, Nouamane Tazi, Loic Magne, and Nils Reimers. 2023. MTEB: Massive Text Embedding Benchmark. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pages 2014–2037, Dubrovnik, Croatia. Association for Computational Linguistics.

[2] https://huggingface.co/blog/lyon-nlp-group/french-mteb-datasets

[3] Antoine Louis and Gerasimos Spanakis. 2022. A Statutory Article Retrieval Dataset in French. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 6789–6803, Dublin, Ireland. Association for Computational Linguistics.

[4] Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder and Furu Wei. Text Embeddings by Weakly-Supervised Contrastive Pre-training. ArXiv abs/2212.03533 (2022): n. pag.

社区

注册登录 发表评论