使用统计信息收集
文本生成推理会收集匿名的使用统计信息,以帮助我们改进服务。收集的数据用于改进 TGI 并了解导致故障的原因。数据是透明收集的,并且会省略任何敏感信息。
数据会发送两次,一次在服务器启动时,一次在服务器停止时。此外,只有在 TGI 在 Docker 中运行时才会启用使用统计信息,以避免在 TGI 直接在主机上运行时收集数据。
收集哪些数据
收集数据的代码可在 此处 获取。截至 2.1.2 版本,这是一个收集数据的示例
- 来自 TGI 配置
{
"event_type": "start",
"disable_grammar_support": false,
"max_batch_prefill_tokens": 4096,
"max_batch_size": null,
"max_batch_total_tokens": null,
"max_best_of": 2,
"max_client_batch_size": 4,
"max_concurrent_requests": 128,
"max_input_tokens": 1024,
"max_stop_sequences": 4,
"max_top_n_tokens": 5,
"max_total_tokens": 2048,
"max_waiting_tokens": 20,
"messages_api_enabled": false,
"model_config": {
"model_type": "Bloom"
},
"revision": null,
"tokenizer_class": "BloomTokenizerFast",
"validation_workers": 2,
"waiting_served_ratio": 1.2,
"docker_label": "latest",
"git_sha": "cfc118704880453d29bcbe4fbbd91dda501cf5fe",
"nvidia_env": {
"name": "NVIDIA A10G",
"pci_bus_id": "00000000:00:1E.0",
"driver_version": "535.183.01",
"pstate": "P8",
"pcie_link_gen_max": "4",
"pcie_link_gen_current": "1",
"temperature_gpu": "31",
"utilization_gpu": "0 %",
"utilization_memory": "0 %",
"memory_total": "23028 MiB",
"memory_free": "22515 MiB",
"memory_used": "0 MiB",
"reset_status_reset_required": "No",
"reset_status_drain_and_reset_recommended": "No",
"compute_cap": "8.6",
"ecc_errors_corrected_volatile_total": "0",
"mig_mode_current": "[N/A]",
"power_draw_instant": "10.86 W",
"power_limit": "300.00 W"
},
"system_env": {
"cpu_count": 16,
"cpu_type": "AMD EPYC 7R32",
"total_memory": 66681196544,
"architecture": "x86_64",
"platform": "linux-unix-x86_64"
}
}
如何选择退出
通过将 --usage-stats
传递给文本生成启动器,您可以控制收集的使用统计信息量。--usage-stats=no-stack
不会发出错误的堆栈跟踪和错误类型,但会继续发送启动和停止事件。--usage-stats=off
将完全禁用所有内容