指标
TGI 公开了多个指标,这些指标可以通过/metrics
Prometheus 端点收集。这些指标可用于监控 TGI 的性能、自动扩展部署并帮助识别瓶颈。
公开以下指标
指标名称 | 描述 | 类型 | 单位 |
---|---|---|---|
tgi_batch_current_max_tokens | 当前批次的最高令牌数 | Gauge | 计数 |
tgi_batch_current_size | 当前批次大小 | Gauge | 计数 |
tgi_batch_decode_duration | 每种方法(预填充或解码)解码批次所花费的时间 | 直方图 | 秒 |
tgi_batch_filter_duration | 每种方法(预填充或解码)过滤批次和发送生成的令牌所花费的时间 | 直方图 | 秒 |
tgi_batch_forward_duration | 每种方法(预填充或解码)的批次转发持续时间 | 直方图 | 秒 |
tgi_batch_inference_count | 每种方法(预填充或解码)的推理调用次数 | 计数器 | 计数 |
tgi_batch_inference_duration | 批次推理持续时间 | 直方图 | 秒 |
tgi_batch_inference_success | 每种方法(预填充或解码)成功推理调用的次数 | 计数器 | 计数 |
tgi_batch_next_size | 下一批的批次大小 | 直方图 | 计数 |
tgi_queue_size | 当前队列大小 | Gauge | 计数 |
tgi_request_count | 请求总数 | 计数器 | 计数 |
tgi_request_duration | 处理请求(端到端延迟)所花费的总时间 | 直方图 | 秒 |
tgi_request_generated_tokens | 每个请求生成的令牌 | 直方图 | 计数 |
tgi_request_inference_duration | 请求推理持续时间 | 直方图 | 秒 |
tgi_request_input_length | 每个请求的输入令牌长度 | 直方图 | 计数 |
tgi_request_max_new_tokens | 每个请求的最高新令牌数 | 直方图 | 计数 |
tgi_request_mean_time_per_token_duration | 每个请求的每令牌平均时间(令牌间延迟) | 直方图 | 秒 |
tgi_request_queue_duration | 每个请求在队列中花费的时间 | 直方图 | 秒 |
tgi_request_skipped_tokens | 每个请求推测的令牌 | 直方图 | 计数 |
tgi_request_success | 成功请求的次数 | 计数器 | |
tgi_request_validation_duration | 验证请求所花费的时间 | 直方图 | 秒 |