推理端点(专用)文档

文本嵌入推理 (TEI)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

文本嵌入推理 (TEI)

文本嵌入推理 (TEI) 是一款强大、可用于生产环境的引擎,旨在快速高效地从各种模型生成文本嵌入。TEI 专为可扩展性和可靠性而构建,可简化用于搜索、检索、聚类和语义理解任务的嵌入模型的部署。

主要功能

  • 高效的资源利用:受益于小巧的 Docker 镜像和快速的启动时间。
  • 动态批处理:TEI 采用基于令牌的动态批处理,从而优化推理期间的资源利用。
  • 优化的推理:TEI 通过使用优化的 Transformer 代码进行推理,利用了 Flash Attention、Candle 和 cuBLASLt。
  • 支持 Safetensors 和 ONNX 格式的模型
  • 生产就绪:TEI 通过 Open Telemetry 支持分布式跟踪,并导出 Prometheus 指标。

配置

config

  • 最大令牌数(每批次):在强制查询等待内部队列之前可以添加到批次的令牌数。
  • 最大并发请求数:服务器可以同时处理的最大请求数。
  • 池化:用于覆盖模型池化配置的设置。默认情况下不覆盖模型配置。

支持的模型

您可以通过以下方式找到 TGI 支持的模型:

参考资料

我们还建议阅读 TEI 文档以获取更深入的信息。

< > 在 GitHub 上更新