Hugging Face
模型
数据集
Spaces
帖子
文档
企业版
定价
登录
注册
Learn
text-generation-inference 文档
在 Google TPU 上使用 TGI
text-generation-inference
🏡 查看所有文档
AWS Trainium & Inferentia
Accelerate
Amazon SageMaker
Argilla
AutoTrain
Bitsandbytes
聊天 UI
竞赛
数据集查看器
数据集
Diffusers
Distilabel
Evaluate
Gradio
Hub
Hub Python 库
Hugging Face 生成式 AI 服务 (HUGS)
Huggingface.js
推理端点 (专用)
推理提供商
排行榜
Lighteval
Optimum
PEFT
Safetensors
Sentence Transformers
TRL
任务
文本嵌入推理
文本生成推理
Tokenizers
Transformers
Transformers.js
smolagents
timm
搜索文档
main
EN
入门指南
文本生成推理
快速入门
支持的模型
在 Nvidia GPU 上使用 TGI
在 AMD GPU 上使用 TGI
在 Intel Gaudi 上使用 TGI
在 AWS Trainium 和 Inferentia 上使用 TGI
在 Google TPU 上使用 TGI
在 Intel GPU 上使用 TGI
从源码安装
多后端支持
内部架构
使用统计
教程
使用 TGI
准备模型以供服务
服务私有和门控模型
使用 TGI CLI
非核心模型服务
安全性
使用 Guidance、JSON、工具
视觉语言模型
使用 Prometheus 和 Grafana 监控 TGI
训练 Medusa
后端
Neuron
Gaudi
TensorRT-LLM
Llamacpp
参考
所有 TGI CLI 选项
导出指标
API 参考
概念指南
V3 更新、缓存和分块
流式传输
量化
张量并行
PagedAttention
Safetensors
Flash Attention
推测 (Medusa, ngram)
Guidance 工作原理 (通过 outlines)
LoRA (低秩适配)
外部资源
加入 Hugging Face 社区
并获得增强的文档体验
协作处理模型、数据集和 Spaces
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
在 Google TPU 上使用 TGI
查看这份关于如何在 TPU 上使用 TGI 服务模型的
指南
。
<
>
更新
在 GitHub 上
←
在 AWS Trainium 和 Inferentia 上使用 TGI
在 Intel GPU 上使用 TGI
→
在 TG
I 上使用
Google TP
Us