text-generation-inference 文档
指标
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
指标
TGI 公开了多个指标,可以通过 /metrics
Prometheus 端点收集。这些指标可用于监控 TGI 的性能、自动缩放部署并帮助识别瓶颈。
以下是公开的指标
指标名称 | 描述 | 类型 | 单位 |
---|---|---|---|
tgi_batch_current_max_tokens | 当前批次的最大令牌数 | 计量器 | 计数 |
tgi_batch_current_size | 当前批次大小 | 计量器 | 计数 |
tgi_batch_decode_duration | 每个方法(预填充或解码)解码批次所花费的时间 | 直方图 | 秒 |
tgi_batch_filter_duration | 每个方法(预填充或解码)过滤批次和发送生成的令牌所花费的时间 | 直方图 | 秒 |
tgi_batch_forward_duration | 每个方法(预填充或解码)的批次转发持续时间 | 直方图 | 秒 |
tgi_batch_inference_count | 每个方法(预填充或解码)的推理调用次数 | 计数器 | 计数 |
tgi_batch_inference_duration | 批次推理持续时间 | 直方图 | 秒 |
tgi_batch_inference_success | 每个方法(预填充或解码)的成功推理调用次数 | 计数器 | 计数 |
tgi_batch_next_size | 下一批次的批次大小 | 直方图 | 计数 |
tgi_queue_size | 当前队列大小 | 计量器 | 计数 |
tgi_request_count | 请求总数 | 计数器 | 计数 |
tgi_request_duration | 处理请求的总时间(端到端延迟) | 直方图 | 秒 |
tgi_request_generated_tokens | 每个请求生成的令牌数 | 直方图 | 计数 |
tgi_request_inference_duration | 请求推理持续时间 | 直方图 | 秒 |
tgi_request_input_length | 每个请求的输入令牌长度 | 直方图 | 计数 |
tgi_request_max_new_tokens | 每个请求的最大新令牌数 | 直方图 | 计数 |
tgi_request_mean_time_per_token_duration | 每个请求的每个令牌的平均时间(令牌间延迟) | 直方图 | 秒 |
tgi_request_queue_duration | 每个请求在队列中花费的时间 | 直方图 | 秒 |
tgi_request_skipped_tokens | 每个请求的推测令牌数 | 直方图 | 计数 |
tgi_request_success | 成功请求数 | 计数器 | |
tgi_request_validation_duration | 验证请求所花费的时间 | 直方图 | 秒 |