text-embeddings-inference 文档
支持的模型和硬件
并获得增强的文档体验
开始使用
支持的模型和硬件
我们正在不断扩展对其他模型类型的支持,并计划在未来的更新中加入它们。
支持的 embeddings 模型
Text Embeddings Inference 目前支持带有绝对位置的 Nomic、BERT、CamemBERT、XLM-RoBERTa 模型,带有 Alibi 位置的 JinaBERT 模型,以及带有 Rope 位置的 Mistral、Alibaba GTE 和 Qwen2 模型。
以下是一些当前支持的模型的示例
MTEB 排名 | 模型大小 | 模型类型 | 模型 ID |
---|---|---|---|
1 | 7B (非常慢) | Mistral | Salesforce/SFR-Embedding-2_R |
15 | 0.4B | Alibaba GTE | Alibaba-NLP/gte-large-en-v1.5 |
20 | 0.3B | Bert | WhereIsAI/UAE-Large-V1 |
24 | 0.5B | XLM-RoBERTa | intfloat/multilingual-e5-large-instruct |
N/A | 0.1B | NomicBert | nomic-ai/nomic-embed-text-v1 |
N/A | 0.1B | NomicBert | nomic-ai/nomic-embed-text-v1.5 |
N/A | 0.1B | JinaBERT | jinaai/jina-embeddings-v2-base-en |
N/A | 0.1B | JinaBERT | jinaai/jina-embeddings-v2-base-code |
要探索性能最佳的文本 embeddings 模型列表,请访问 Massive Text Embedding Benchmark (MTEB) 排行榜。
支持的 re-rankers 和序列分类模型
Text Embeddings Inference 目前支持带有绝对位置的 CamemBERT 和 XLM-RoBERTa 序列分类模型。
以下是一些当前支持的模型的示例
任务 | 模型类型 | 模型 ID | 修订 |
---|---|---|---|
重排序 | XLM-RoBERTa | BAAI/bge-reranker-large | refs/pr/4 |
重排序 | XLM-RoBERTa | BAAI/bge-reranker-base | refs/pr/5 |
情感分析 | RoBERTa | SamLowe/roberta-base-go_emotions |
支持的硬件
Text Embeddings Inference 支持在 CPU、Turing (T4, RTX 2000 系列, ...)、Ampere 80 (A100, A30)、Ampere 86 (A10, A40, ...)、Ada Lovelace (RTX 4000 系列, ...) 和 Hopper (H100) 架构上使用。
该库不支持 CUDA 计算能力低于 7.5 的架构,这意味着不支持 V100、Titan V、GTX 1000 系列等。要利用您的 GPU,请确保安装 NVIDIA Container Toolkit,并使用 CUDA 版本 12.2 或更高版本的 NVIDIA 驱动程序。
在下表中找到适合您硬件的 Docker 镜像
架构 | 镜像 |
---|---|
CPU | ghcr.io/huggingface/text-embeddings-inference:cpu-1.6 |
Volta | 不支持 |
Turing (T4, RTX 2000 系列, ...) | ghcr.io/huggingface/text-embeddings-inference:turing-1.6 (实验性) |
Ampere 80 (A100, A30) | ghcr.io/huggingface/text-embeddings-inference:1.6 |
Ampere 86 (A10, A40, ...) | ghcr.io/huggingface/text-embeddings-inference:86-1.6 |
Ada Lovelace (RTX 4000 系列, ...) | ghcr.io/huggingface/text-embeddings-inference:89-1.6 |
Hopper (H100) | ghcr.io/huggingface/text-embeddings-inference:hopper-1.6 (实验性) |
警告:Flash Attention 默认在 Turing 镜像中关闭,因为它存在精度问题。您可以使用 USE_FLASH_ATTENTION=True
环境变量开启 Flash Attention v1。