text-generation-inference 文档

指标

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

指标

TGI 公开了多个指标,可以通过 /metrics Prometheus 端点收集。这些指标可用于监控 TGI 的性能、自动缩放部署并帮助识别瓶颈。

以下是公开的指标

指标名称 描述 类型 单位
tgi_batch_current_max_tokens 当前批次的最大令牌数 计量器 计数
tgi_batch_current_size 当前批次大小 计量器 计数
tgi_batch_decode_duration 每个方法(预填充或解码)解码批次所花费的时间 直方图
tgi_batch_filter_duration 每个方法(预填充或解码)过滤批次和发送生成的令牌所花费的时间 直方图
tgi_batch_forward_duration 每个方法(预填充或解码)的批次转发持续时间 直方图
tgi_batch_inference_count 每个方法(预填充或解码)的推理调用次数 计数器 计数
tgi_batch_inference_duration 批次推理持续时间 直方图
tgi_batch_inference_success 每个方法(预填充或解码)的成功推理调用次数 计数器 计数
tgi_batch_next_size 下一批次的批次大小 直方图 计数
tgi_queue_size 当前队列大小 计量器 计数
tgi_request_count 请求总数 计数器 计数
tgi_request_duration 处理请求的总时间(端到端延迟) 直方图
tgi_request_generated_tokens 每个请求生成的令牌数 直方图 计数
tgi_request_inference_duration 请求推理持续时间 直方图
tgi_request_input_length 每个请求的输入令牌长度 直方图 计数
tgi_request_max_new_tokens 每个请求的最大新令牌数 直方图 计数
tgi_request_mean_time_per_token_duration 每个请求的每个令牌的平均时间(令牌间延迟) 直方图
tgi_request_queue_duration 每个请求在队列中花费的时间 直方图
tgi_request_skipped_tokens 每个请求的推测令牌数 直方图 计数
tgi_request_success 成功请求数 计数器
tgi_request_validation_duration 验证请求所花费的时间 直方图
< > 在 GitHub 上更新