text-generation-inference 文档

使用统计信息收集

Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始

使用统计信息收集

文本生成推理会收集匿名的使用统计信息,以帮助我们改进服务。收集的数据用于改进 TGI 并了解导致故障的原因。数据是透明收集的,并且会省略任何敏感信息。

数据会发送两次,一次在服务器启动时,一次在服务器停止时。此外,只有在 TGI 在 Docker 中运行时才会启用使用统计信息,以避免在 TGI 直接在主机上运行时收集数据。

收集哪些数据

收集数据的代码可在 此处 获取。截至 2.1.2 版本,这是一个收集数据的示例

  • 来自 TGI 配置
{
  "event_type": "start",
  "disable_grammar_support": false,
  "max_batch_prefill_tokens": 4096,
  "max_batch_size": null,
  "max_batch_total_tokens": null,
  "max_best_of": 2,
  "max_client_batch_size": 4,
  "max_concurrent_requests": 128,
  "max_input_tokens": 1024,
  "max_stop_sequences": 4,
  "max_top_n_tokens": 5,
  "max_total_tokens": 2048,
  "max_waiting_tokens": 20,
  "messages_api_enabled": false,
  "model_config": {
    "model_type": "Bloom"
  },
  "revision": null,
  "tokenizer_class": "BloomTokenizerFast",
  "validation_workers": 2,
  "waiting_served_ratio": 1.2,
  "docker_label": "latest",
  "git_sha": "cfc118704880453d29bcbe4fbbd91dda501cf5fe",
  "nvidia_env": {
    "name": "NVIDIA A10G",
    "pci_bus_id": "00000000:00:1E.0",
    "driver_version": "535.183.01",
    "pstate": "P8",
    "pcie_link_gen_max": "4",
    "pcie_link_gen_current": "1",
    "temperature_gpu": "31",
    "utilization_gpu": "0 %",
    "utilization_memory": "0 %",
    "memory_total": "23028 MiB",
    "memory_free": "22515 MiB",
    "memory_used": "0 MiB",
    "reset_status_reset_required": "No",
    "reset_status_drain_and_reset_recommended": "No",
    "compute_cap": "8.6",
    "ecc_errors_corrected_volatile_total": "0",
    "mig_mode_current": "[N/A]",
    "power_draw_instant": "10.86 W",
    "power_limit": "300.00 W"
  },
  "system_env": {
    "cpu_count": 16,
    "cpu_type": "AMD EPYC 7R32",
    "total_memory": 66681196544,
    "architecture": "x86_64",
    "platform": "linux-unix-x86_64"
  }
}

如何选择退出

通过将 --usage-stats 传递给文本生成启动器,您可以控制收集的使用统计信息量。--usage-stats=no-stack 不会发出错误的堆栈跟踪和错误类型,但会继续发送启动和停止事件。--usage-stats=off 将完全禁用所有内容

< > 更新 在 GitHub 上