Hugging Face
模型
数据集
空间
社区
文档
企业版
定价
登录
注册
Learn
text-generation-inference 文档
在 Google TPU 上使用 TGI
文本生成推理
🏡 查看所有文档
AWS Trainium & Inferentia
加速
Argilla
AutoTrain
Bitsandbytes
聊天用户界面
数据集查看器
数据集
在 AWS 上部署
Diffusers
Distilabel
评估
Gradio
Hub
Hub Python 库
Huggingface.js
推理端点(专用)
推理服务提供商
LeRobot
排行榜
Lighteval
Microsoft Azure
Optimum
PEFT
Safetensors
Sentence Transformers
TRL
任务
文本嵌入推理
文本生成推理
Tokenizers
Transformers
Transformers.js
smolagents
timm
搜索文档
主页
英
快速入门
文本生成推理
快速入门
支持的模型
在 Nvidia GPU 上使用 TGI
在 AMD GPU 上使用 TGI
在 Intel Gaudi 上使用 TGI
在 AWS Trainium 和 Inferentia 上使用 TGI
在 Google TPU 上使用 TGI
在 Intel GPU 上使用 TGI
从源代码安装
多后端支持
内部架构
使用统计
教程
使用 TGI
准备模型以供服务
提供私有和受限模型
使用 TGI CLI
非核心模型服务
安全
使用 Guidance、JSON、工具
视觉语言模型
使用 Prometheus 和 Grafana 监控 TGI
训练 Medusa
后端
Neuron
Gaudi
TensorRT-LLM
Llamacpp
参考
所有 TGI CLI 选项
导出的指标
API 参考
概念指南
V3 更新、缓存和分块
流式传输
量化
张量并行
PagedAttention
Safetensors
Flash Attention
推测(Medusa,ngram)
Guidance 如何工作(通过 outlines)
LoRA(低秩适应)
外部资源
加入 Hugging Face 社区
并获得增强的文档体验
在模型、数据集和 Spaces 上进行协作
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
在 Google TPU 上使用 TGI
请查看此
指南
,了解如何在 TPU 上使用 TGI 提供模型。
<
>
在 GitHub 上更新
←
在 AWS Trainium 和 Inferentia 上使用 TGI
在 Intel GPU 上使用 TGI
→
在 Google TP
U 上使用 TGI