text-generation-inference 文档

指标

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

指标

TGI 暴露了多个指标,可以通过 `/metrics` Prometheus 端点收集。这些指标可用于监控 TGI 的性能、自动扩缩部署以及帮助识别瓶颈。

暴露的指标如下:

指标名称 描述 类型 单位
tgi_batch_current_max_tokens 当前批次的最大 token 数 Gauge 数量
tgi_batch_current_size 当前批次大小 Gauge 数量
tgi_batch_decode_duration 按方法(预填充或解码)解码批次所花费的时间 直方图
tgi_batch_filter_duration 按方法(预填充或解码)过滤批次和发送生成 token 所花费的时间 直方图
tgi_batch_forward_duration 按方法(预填充或解码)的批次前向持续时间 直方图
tgi_batch_inference_count 按方法(预填充或解码)的推理调用次数 计数器 数量
tgi_batch_inference_duration 批次推理持续时间 直方图
tgi_batch_inference_success 按方法(预填充或解码)的成功推理调用次数 计数器 数量
tgi_batch_next_size 下一批次的批次大小 直方图 数量
tgi_queue_size 当前队列大小 Gauge 数量
tgi_request_count 请求总数 计数器 数量
tgi_request_duration 处理请求所花费的总时间(端到端延迟) 直方图
tgi_request_generated_tokens 每个请求生成的 token 数 直方图 数量
tgi_request_inference_duration 请求推理持续时间 直方图
tgi_request_input_length 每个请求的输入 token 长度 直方图 数量
tgi_request_max_new_tokens 每个请求的最大新 token 数 直方图 数量
tgi_request_mean_time_per_token_duration 每个请求的平均每 token 时间(token 间延迟) 直方图
tgi_request_queue_duration 每个请求在队列中花费的时间 直方图
tgi_request_skipped_tokens 每个请求的推测 token 数 直方图 数量
tgi_request_success 成功请求的数量 计数器
tgi_request_validation_duration 验证请求所花费的时间 直方图
< > 在 GitHub 上更新