文本嵌入推理文档

文本嵌入推理

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

文本嵌入推理 (Text Embeddings Inference)

Text Embeddings Inference (TEI) 是一个全面的工具包,旨在高效部署和提供开源文本嵌入模型的服务。它能为最受欢迎的模型(包括 FlagEmbedding、Ember、GTE 和 E5)提供高性能的提取能力。

TEI 提供了多项特性,旨在优化部署流程并提升整体性能。

主要功能

  • 简化部署: TEI 消除了模型图编译步骤,使部署过程更加简单。
  • 高效资源利用: 得益于轻量级的 Docker 镜像和快速启动时间,可实现真正的无服务器 (serverless) 能力。
  • 动态批处理: TEI 采用了基于 Token 的动态批处理,从而优化推理过程中的资源利用率。
  • 优化推理: TEI 通过使用优化的 Transformer 推理代码,利用了 Flash AttentionCandlecuBLASLt
  • Safetensors 权重加载: TEI 加载 Safetensors 权重以实现更快的启动速度。
  • 生产就绪: TEI 通过 Open Telemetry 支持分布式追踪,并导出 Prometheus 指标。

基准测试

在 NVIDIA A10 上针对 BAAI/bge-base-en-v1.5 的基准测试,序列长度为 512 个 token

Latency comparison for batch size of 1 Throughput comparison for batch size of 1

Latency comparison for batch size of 32 Throughput comparison for batch size of 32

入门指南

要开始使用 TEI,请查看 快速上手 (Quick Tour) 指南。

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.