文本嵌入推理文档
支持的模型和硬件
并获得增强的文档体验
开始使用
支持的模型和硬件
我们正在不断扩展对其他模型类型的支持,并计划在未来的更新中包含它们。
支持的嵌入模型
Text Embeddings Inference 目前支持带有绝对位置编码的 Nomic、BERT、CamemBERT、XLM-RoBERTa 模型,带有 Alibi 位置编码的 JinaBERT 模型,带有 Rope 位置编码的 Mistral、Alibaba GTE、Qwen2 模型,以及 MPNet、ModernBERT、Qwen3 和 Gemma3 模型。
以下是一些当前支持模型的示例
| MTEB 排名 | 模型大小 | 模型类型 | 模型 ID |
|---|---|---|---|
| 2 | 7.57B (非常昂贵) | Qwen3 | Qwen/Qwen3-Embedding-8B |
| 3 | 4.02B (非常昂贵) | Qwen3 | Qwen/Qwen3-Embedding-4B |
| 4 | 509M | Qwen3 | Qwen/Qwen3-Embedding-0.6B |
| 6 | 7.61B (非常昂贵) | Qwen2 | Alibaba-NLP/gte-Qwen2-7B-instruct |
| 7 | 560M | XLM-RoBERTa | intfloat/multilingual-e5-large-instruct |
| 8 | 308M | Gemma3 | google/embeddinggemma-300m (受限) |
| 15 | 1.78B (昂贵) | Qwen2 | Alibaba-NLP/gte-Qwen2-1.5B-instruct |
| 18 | 7.11B (非常昂贵) | Mistral | Salesforce/SFR-Embedding-2_R |
| 35 | 568M | XLM-RoBERTa | Snowflake/snowflake-arctic-embed-l-v2.0 |
| 41 | 305M | Alibaba GTE | Snowflake/snowflake-arctic-embed-m-v2.0 |
| 52 | 335M | BERT | WhereIsAI/UAE-Large-V1 |
| 58 | 137M | NomicBERT | nomic-ai/nomic-embed-text-v1 |
| 79 | 137M | NomicBERT | nomic-ai/nomic-embed-text-v1.5 |
| 103 | 1.09亿 | MPNet | sentence-transformers/all-mpnet-base-v2 |
| 不适用 | 475M-A305M | NomicBERT | nomic-ai/nomic-embed-text-v2-moe |
| 不适用 | 434M | Alibaba GTE | Alibaba-NLP/gte-large-en-v1.5 |
| 不适用 | 396M | ModernBERT | answerdotai/ModernBERT-large |
| 不适用 | 137M | JinaBERT | jinaai/jina-embeddings-v2-base-en |
| 不适用 | 137M | JinaBERT | jinaai/jina-embeddings-v2-base-code |
要探索性能最佳的文本嵌入模型列表,请访问 Massive Text Embedding Benchmark (MTEB) Leaderboard。
支持的 re-ranker 和序列分类模型
Text Embeddings Inference 目前支持带有绝对位置编码的 CamemBERT 和 XLM-RoBERTa 序列分类模型。
以下是一些当前支持模型的示例
| 任务 | 模型类型 | 模型 ID |
|---|---|---|
| 重新排名 | XLM-RoBERTa | BAAI/bge-reranker-large |
| 重新排名 | XLM-RoBERTa | BAAI/bge-reranker-base |
| 重新排名 | GTE | Alibaba-NLP/gte-multilingual-reranker-base |
| 重新排名 | ModernBert | Alibaba-NLP/gte-reranker-modernbert-base |
| 情感分析 | RoBERTa | SamLowe/roberta-base-go_emotions |
支持的硬件
Text Embeddings Inference 支持在 CPU、Turing(T4、RTX 2000 系列…)、Ampere 80(A100、A30)、Ampere 86(A10、A40…)、Ada Lovelace(RTX 4000 系列…)和 Hopper(H100)架构上使用。
该库不支持 CUDA 计算能力 < 7.5 的设备,这意味着 V100、Titan V、GTX 1000 系列等不支持。
要利用您的 GPU,请确保安装 NVIDIA Container Toolkit,并使用 CUDA 版本为 12.2 或更高版本的 NVIDIA 驱动程序。
在下表中找到适合您硬件的 Docker 镜像
| 架构 | 图像 |
|---|---|
| CPU | ghcr.io/huggingface/text-embeddings-inference:cpu-1.8 |
| Volta | 不支持 |
| Turing (T4、RTX 2000 系列…) | ghcr.io/huggingface/text-embeddings-inference:turing-1.8 (实验性) |
| Ampere 80 (A100、A30) | ghcr.io/huggingface/text-embeddings-inference:1.8 |
| Ampere 86 (A10、A40…) | ghcr.io/huggingface/text-embeddings-inference:86-1.8 |
| Ada Lovelace (RTX 4000 系列…) | ghcr.io/huggingface/text-embeddings-inference:89-1.8 |
| Hopper (H100) | ghcr.io/huggingface/text-embeddings-inference:hopper-1.8 (实验性) |
警告:Turing 镜像默认关闭 Flash Attention,因为它存在精度问题。您可以通过使用 USE_FLASH_ATTENTION=True 环境变量来开启 Flash Attention v1。