支持的模型和硬件

我们正在不断扩展对其他模型类型的支持，并计划在未来的更新中加入它们。

支持的 embeddings 模型

Text Embeddings Inference 目前支持带有绝对位置的 Nomic、BERT、CamemBERT、XLM-RoBERTa 模型，带有 Alibi 位置的 JinaBERT 模型，以及带有 Rope 位置的 Mistral、Alibaba GTE 和 Qwen2 模型。

以下是一些当前支持的模型的示例

MTEB 排名	模型大小	模型类型	模型 ID
1	7B (非常慢)	Mistral	Salesforce/SFR-Embedding-2_R
15	0.4B	Alibaba GTE	Alibaba-NLP/gte-large-en-v1.5
20	0.3B	Bert	WhereIsAI/UAE-Large-V1
24	0.5B	XLM-RoBERTa	intfloat/multilingual-e5-large-instruct
N/A	0.1B	NomicBert	nomic-ai/nomic-embed-text-v1
N/A	0.1B	NomicBert	nomic-ai/nomic-embed-text-v1.5
N/A	0.1B	JinaBERT	jinaai/jina-embeddings-v2-base-en
N/A	0.1B	JinaBERT	jinaai/jina-embeddings-v2-base-code

要探索性能最佳的文本 embeddings 模型列表，请访问 Massive Text Embedding Benchmark (MTEB) 排行榜。

支持的 re-rankers 和序列分类模型

Text Embeddings Inference 目前支持带有绝对位置的 CamemBERT 和 XLM-RoBERTa 序列分类模型。

以下是一些当前支持的模型的示例

任务	模型类型	模型 ID	修订
重排序	XLM-RoBERTa	BAAI/bge-reranker-large	`refs/pr/4`
重排序	XLM-RoBERTa	BAAI/bge-reranker-base	`refs/pr/5`
情感分析	RoBERTa	SamLowe/roberta-base-go_emotions

支持的硬件

Text Embeddings Inference 支持在 CPU、Turing (T4, RTX 2000 系列, ...)、Ampere 80 (A100, A30)、Ampere 86 (A10, A40, ...)、Ada Lovelace (RTX 4000 系列, ...) 和 Hopper (H100) 架构上使用。

该库不支持 CUDA 计算能力低于 7.5 的架构，这意味着不支持 V100、Titan V、GTX 1000 系列等。要利用您的 GPU，请确保安装 NVIDIA Container Toolkit，并使用 CUDA 版本 12.2 或更高版本的 NVIDIA 驱动程序。

在下表中找到适合您硬件的 Docker 镜像

架构	镜像
CPU	ghcr.io/huggingface/text-embeddings-inference:cpu-1.6
Volta	不支持
Turing (T4, RTX 2000 系列, ...)	ghcr.io/huggingface/text-embeddings-inference:turing-1.6 (实验性)
Ampere 80 (A100, A30)	ghcr.io/huggingface/text-embeddings-inference:1.6
Ampere 86 (A10, A40, ...)	ghcr.io/huggingface/text-embeddings-inference:86-1.6
Ada Lovelace (RTX 4000 系列, ...)	ghcr.io/huggingface/text-embeddings-inference:89-1.6
Hopper (H100)	ghcr.io/huggingface/text-embeddings-inference:hopper-1.6 (实验性)

警告：Flash Attention 默认在 Turing 镜像中关闭，因为它存在精度问题。您可以使用 USE_FLASH_ATTENTION=True 环境变量开启 Flash Attention v1。

< > 更新在 GitHub 上

text-embeddings-inference

支持的模型和硬件

支持的 embeddings 模型

支持的 re-rankers 和序列分类模型

支持的硬件