text-generation-inference 文档

指标

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

以开始使用

指标

TGI 公开了多个指标,这些指标可以通过/metrics Prometheus 端点收集。这些指标可用于监控 TGI 的性能、自动扩展部署并帮助识别瓶颈。

公开以下指标

指标名称 描述 类型 单位
tgi_batch_current_max_tokens 当前批次的最高令牌数 Gauge 计数
tgi_batch_current_size 当前批次大小 Gauge 计数
tgi_batch_decode_duration 每种方法(预填充或解码)解码批次所花费的时间 直方图
tgi_batch_filter_duration 每种方法(预填充或解码)过滤批次和发送生成的令牌所花费的时间 直方图
tgi_batch_forward_duration 每种方法(预填充或解码)的批次转发持续时间 直方图
tgi_batch_inference_count 每种方法(预填充或解码)的推理调用次数 计数器 计数
tgi_batch_inference_duration 批次推理持续时间 直方图
tgi_batch_inference_success 每种方法(预填充或解码)成功推理调用的次数 计数器 计数
tgi_batch_next_size 下一批的批次大小 直方图 计数
tgi_queue_size 当前队列大小 Gauge 计数
tgi_request_count 请求总数 计数器 计数
tgi_request_duration 处理请求(端到端延迟)所花费的总时间 直方图
tgi_request_generated_tokens 每个请求生成的令牌 直方图 计数
tgi_request_inference_duration 请求推理持续时间 直方图
tgi_request_input_length 每个请求的输入令牌长度 直方图 计数
tgi_request_max_new_tokens 每个请求的最高新令牌数 直方图 计数
tgi_request_mean_time_per_token_duration 每个请求的每令牌平均时间(令牌间延迟) 直方图
tgi_request_queue_duration 每个请求在队列中花费的时间 直方图
tgi_request_skipped_tokens 每个请求推测的令牌 直方图 计数
tgi_request_success 成功请求的次数 计数器
tgi_request_validation_duration 验证请求所花费的时间 直方图
< > 在 GitHub 上更新