文本嵌入推理
文本嵌入推理 (TEI) 是一款综合工具包,专为高效部署和提供开源文本嵌入模型而设计。它支持对最流行模型(包括 FlagEmbedding、Ember、GTE 和 E5)进行高性能提取。
TEI 提供多种功能,旨在优化部署流程并提高整体性能。
主要功能
- 简化部署:TEI 消除了模型图编译步骤的需要,从而简化了部署流程。
- 高效资源利用:受益于小型 Docker 镜像和快速启动时间,从而实现真正的无服务器功能。
- 动态批处理:TEI 采用基于令牌的动态批处理,从而在推理过程中优化资源利用率。
- 优化推理:TEI 利用 Flash Attention、Candle 和 cuBLASLt,通过使用优化的 Transformers 代码进行推理。
- Safetensors 权重加载:TEI 加载 Safetensors 权重,以缩短启动时间。
- 生产就绪:TEI 通过 Open Telemetry 支持分布式跟踪,并导出 Prometheus 指标。
基准测试
在 NVIDIA A10 上针对 BAAI/bge-base-en-v1.5 进行基准测试,序列长度为 512 个令牌
入门
要开始使用 TEI,请查看 快速入门 指南。
< > 更新 在 GitHub 上