text-embeddings-inference 文档

支持的模型和硬件

Hugging Face's logo
加入 Hugging Face 社区

并访问增强版文档体验

以开始

支持的模型和硬件

我们正在不断扩展对其他模型类型的支持,并计划在将来的更新中包含它们。

支持的嵌入模型

文本嵌入推理目前支持 Nomic、BERT、CamemBERT、具有绝对位置的 XLM-RoBERTa 模型,具有 Alibi 位置的 JinaBERT 模型,以及具有 Rope 位置的 Mistral、阿里巴巴 GTE 和 Qwen2 模型。

以下是一些当前支持的模型示例

MTEB 排名 模型大小 模型类型 模型 ID
1 7B(非常慢) Mistral Salesforce/SFR-Embedding-2_R
15 0.4B 阿里巴巴 GTE Alibaba-NLP/gte-large-en-v1.5
20 0.3B Bert WhereIsAI/UAE-Large-V1
24 0.5B XLM-RoBERTa intfloat/multilingual-e5-large-instruct
N/A 0.1B NomicBert nomic-ai/nomic-embed-text-v1
N/A 0.1B NomicBert nomic-ai/nomic-embed-text-v1.5
N/A 0.1B JinaBERT jinaai/jina-embeddings-v2-base-en
N/A 0.1B JinaBERT jinaai/jina-embeddings-v2-base-code

要探索最佳性能文本嵌入模型列表,请访问 Massive Text Embedding Benchmark (MTEB) 排行榜

支持的重新排序器和序列分类模型

文本嵌入推理目前支持具有绝对位置的 CamemBERT 和 XLM-RoBERTa 序列分类模型。

以下是一些当前支持的模型示例

任务 模型类型 模型 ID 修订版
重新排序 XLM-RoBERTa BAAI/bge-reranker-large refs/pr/4
重新排序 XLM-RoBERTa BAAI/bge-reranker-base refs/pr/5
情感分析 RoBERTa SamLowe/roberta-base-go_emotions

支持的硬件

文本嵌入推理支持可以在 CPU、Turing(T4、RTX 2000 系列等)、Ampere 80(A100、A30)、Ampere 86(A10、A40 等)、Ada Lovelace(RTX 4000 系列等)和 Hopper(H100)架构上使用。

该库**不支持**CUDA 计算能力< 7.5,这意味着 V100、Titan V、GTX 1000 系列等不受支持。要利用你的 GPU,请确保安装了 NVIDIA 容器工具包,并使用 CUDA 版本 12.2 或更高版本的 NVIDIA 驱动程序。

在下表中找到适合你的硬件的 Docker 镜像

架构 镜像
CPU ghcr.io/huggingface/text-embeddings-inference:cpu-1.5
Volta 不支持
Turing(T4、RTX 2000 系列等) ghcr.io/huggingface/text-embeddings-inference:turing-1.5(实验性)
Ampere 80(A100、A30) ghcr.io/huggingface/text-embeddings-inference:1.5
Ampere 86(A10、A40 等) ghcr.io/huggingface/text-embeddings-inference:86-1.5
Ada Lovelace(RTX 4000 系列等) ghcr.io/huggingface/text-embeddings-inference:89-1.5
Hopper(H100) ghcr.io/huggingface/text-embeddings-inference:hopper-1.5(实验性)

警告:默认情况下,Turing 镜像关闭了 Flash Attention,因为它存在精度问题。你可以使用USE_FLASH_ATTENTION=True 环境变量来打开 Flash Attention v1。

< > 更新 在 GitHub 上