推理端点（专用）文档

文本嵌入推理 (TEI)

推理端点（专用）

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

文本嵌入推理 (TEI)

文本嵌入推理 (TEI) 是一款强大、可用于生产环境的引擎，旨在快速高效地从各种模型生成文本嵌入。TEI 专为可扩展性和可靠性而构建，可简化用于搜索、检索、聚类和语义理解任务的嵌入模型的部署。

主要功能

高效的资源利用：受益于小巧的 Docker 镜像和快速的启动时间。
动态批处理：TEI 采用基于令牌的动态批处理，从而优化推理期间的资源利用。
优化的推理：TEI 通过使用优化的 Transformer 代码进行推理，利用了 Flash Attention、Candle 和 cuBLASLt。
支持 Safetensors 和 ONNX 格式的模型
生产就绪：TEI 通过 Open Telemetry 支持分布式跟踪，并导出 Prometheus 指标。

配置

config

最大令牌数（每批次）：在强制查询等待内部队列之前可以添加到批次的令牌数。
最大并发请求数：服务器可以同时处理的最大请求数。
池化：用于覆盖模型池化配置的设置。默认情况下不覆盖模型配置。

支持的模型

您可以通过以下方式找到 TGI 支持的模型：

在 Hugging Face Hub 上浏览支持的模型
在 TEI 文档的支持的模型部分

参考资料

我们还建议阅读 TEI 文档以获取更深入的信息。

< > 在 GitHub 上更新

←SGLang llama.cpp→

© . This site is unofficial and not affiliated with Hugging Face, Inc.