Mixedbread 🤝 deepset: 发布我们的全新德语/英语嵌入模型

社区文章 发布于 2024 年 7 月 19 日

Sebastian Husch Lee 共同撰写。

image/png

2024 年了,但目前大多数模型仍然主要面向英语市场。今天,deepsetMixedbread 共同宣布我们为改变这一现状所做的最新贡献:一个新的开源德语/英语嵌入模型——deepset-mxbai-embed-de-large-v1

我们的模型基于 intfloat/multilingual-e5-large,并针对检索任务在 3000 多万对德语数据上进行了微调。在 NDCG@10 指标上(该指标将检索结果列表与理想排序的预期结果列表进行比较),我们的模型不仅为开源德语嵌入模型树立了新标准,而且与商业替代品相比也具有竞争力。

模型 平均性能 (NDCG@10) 二值支持 MRL 支持
deepset-mxbai-embed-de-large-v1 51.7
multilingual-e5-large 50.5
jina-embeddings-v2-base-de 50.0
商业模型
Cohere Multilingual v3 52.4 -

要了解更多信息并深入了解实际数据上的基准测试,请阅读我们与 Mixedbread 合作的完整公告文章。您可以在此电子表格中找到基准概览。

存储和推理效率

除了支持德语之外,我们还专注于使用以下方法提高该新嵌入模型的存储和推理效率:

套娃表示学习(MRL):套娃表示学习可以在不显著损失准确性的情况下减少嵌入模型的输出维度数量。这是通过修改损失函数来优先表示嵌入向量初始维度中的重要信息,从而能够截断后续维度。

二值量化:二值量化通过将 float32 值转换为二进制值来减小每个维度的大小,显著提高内存和磁盘空间效率,同时在推理过程中保持高性能。

开始使用 Haystack

您现在就可以通过 Haystack 中的 SentenceTransformersDocumentEmbedderSentenceTransformersTextEmbedder 组件,以及 Mixedbread 集成MixedbreadDocumentEmbedderMixedbreadTextEmbedder 来使用 deepset-mxbai-embed-de-large-v1。

与 Sentence Transformers Embedder 一起使用

from haystack.components.embedders import SentenceTransformersTextEmbedder, SentenceTransformersDocumentEmbedder

text_embedder = SentenceTransformersTextEmbedder(model="mixedbread-ai/deepset-mxbai-embed-de-large-v1")

document_embedder = SentenceTransformersDocumentEmbedder(model="mixedbread-ai/deepset-mxbai-embed-de-large-v1")

与 Mixedbread Embedder 一起使用

要开始将此模型与Haystack 的 Mixedbread 集成一起使用,请安装 mixedbread-ai-haystack 并将您的 Mixedbread API 密钥导出到 MXBAI_API_KEY

from mixedbread_ai_haystack import  MixedbreadAITextEmbedder, MixedbreadAIDocumentEmbedder
from mixedbread_ai import EncodingFormat

text_embedder = MixedbreadAITextEmbedder( model="mixedbread-ai/deepset-mxbai-embed-de-large-v1",
                                          encoding_format=EncodingFormat.BINARY)

document_embedder = MixedbreadAIDocumentEmbedder(model="mixedbread-ai/deepset-mxbai-embed-de-large-v1",
                                                 encoding_format=EncodingFormat.BINARY)

像我们极具影响力的德语 BERT 模型一样,我们希望这个最先进的模型能够让德语 AI 社区在检索增强生成 (RAG) 及其它领域构建创新产品!

加入我们的 Discord 社区,探索 Haystack。

社区

注册登录发表评论