指标

TGI 暴露了多个指标，可以通过 `/metrics` Prometheus 端点收集。这些指标可用于监控 TGI 的性能、自动扩缩部署以及帮助识别瓶颈。

暴露的指标如下：

指标名称	描述	类型	单位
`tgi_batch_current_max_tokens`	当前批次的最大 token 数	Gauge	数量
`tgi_batch_current_size`	当前批次大小	Gauge	数量
`tgi_batch_decode_duration`	按方法（预填充或解码）解码批次所花费的时间	直方图	秒
`tgi_batch_filter_duration`	按方法（预填充或解码）过滤批次和发送生成 token 所花费的时间	直方图	秒
`tgi_batch_forward_duration`	按方法（预填充或解码）的批次前向持续时间	直方图	秒
`tgi_batch_inference_count`	按方法（预填充或解码）的推理调用次数	计数器	数量
`tgi_batch_inference_duration`	批次推理持续时间	直方图	秒
`tgi_batch_inference_success`	按方法（预填充或解码）的成功推理调用次数	计数器	数量
`tgi_batch_next_size`	下一批次的批次大小	直方图	数量
`tgi_queue_size`	当前队列大小	Gauge	数量
`tgi_request_count`	请求总数	计数器	数量
`tgi_request_duration`	处理请求所花费的总时间（端到端延迟）	直方图	秒
`tgi_request_generated_tokens`	每个请求生成的 token 数	直方图	数量
`tgi_request_inference_duration`	请求推理持续时间	直方图	秒
`tgi_request_input_length`	每个请求的输入 token 长度	直方图	数量
`tgi_request_max_new_tokens`	每个请求的最大新 token 数	直方图	数量
`tgi_request_mean_time_per_token_duration`	每个请求的平均每 token 时间（token 间延迟）	直方图	秒
`tgi_request_queue_duration`	每个请求在队列中花费的时间	直方图	秒
`tgi_request_skipped_tokens`	每个请求的推测 token 数	直方图	数量
`tgi_request_success`	成功请求的数量	计数器
`tgi_request_validation_duration`	验证请求所花费的时间	直方图	秒

< > 在 GitHub 上更新

文本生成推理

指标