文本嵌入推理文档
文本嵌入推理
快速入门
教程
在本地使用 CPU 运行 TEI在本地使用 Metal 运行 TEI在本地使用 GPU 运行 TEI部署私有和受限模型为 TEI 构建自定义容器在 Intel 硬件上使用 TEI 容器在 AMD Instinct GPU (ROCm) 上使用 TEI使用示例
在 Google Cloud 上部署 TEI
参考
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
文本嵌入推理 (Text Embeddings Inference)
Text Embeddings Inference (TEI) 是一个全面的工具包,旨在高效部署和提供开源文本嵌入模型的服务。它能为最受欢迎的模型(包括 FlagEmbedding、Ember、GTE 和 E5)提供高性能的提取能力。
TEI 提供了多项特性,旨在优化部署流程并提升整体性能。
主要功能
- 简化部署: TEI 消除了模型图编译步骤,使部署过程更加简单。
- 高效资源利用: 得益于轻量级的 Docker 镜像和快速启动时间,可实现真正的无服务器 (serverless) 能力。
- 动态批处理: TEI 采用了基于 Token 的动态批处理,从而优化推理过程中的资源利用率。
- 优化推理: TEI 通过使用优化的 Transformer 推理代码,利用了 Flash Attention、Candle 和 cuBLASLt。
- Safetensors 权重加载: TEI 加载 Safetensors 权重以实现更快的启动速度。
- 生产就绪: TEI 通过 Open Telemetry 支持分布式追踪,并导出 Prometheus 指标。
基准测试
在 NVIDIA A10 上针对 BAAI/bge-base-en-v1.5 的基准测试,序列长度为 512 个 token


入门指南
要开始使用 TEI,请查看 快速上手 (Quick Tour) 指南。
在 GitHub 上更新