Hugging Face
模型
数据集
空间
社区
文档
企业版
定价
登录
注册
Learn
text-generation-inference 文档
外部资源
文本生成推理
🏡 查看所有文档
AWS Trainium & Inferentia
加速
Argilla
AutoTrain
Bitsandbytes
聊天用户界面
数据集查看器
数据集
在 AWS 上部署
Diffusers
Distilabel
评估
Gradio
Hub
Hub Python 库
Huggingface.js
推理端点(专用)
推理服务提供商
LeRobot
排行榜
Lighteval
Microsoft Azure
Optimum
PEFT
Safetensors
Sentence Transformers
TRL
任务
文本嵌入推理
文本生成推理
Tokenizers
Transformers
Transformers.js
smolagents
timm
搜索文档
主页
英
快速入门
文本生成推理
快速上手
支持的模型
在 Nvidia GPU 上使用 TGI
在 AMD GPU 上使用 TGI
在 Intel Gaudi 上使用 TGI
在 AWS Trainium 和 Inferentia 上使用 TGI
在 Google TPU 上使用 TGI
在 Intel GPU 上使用 TGI
从源代码安装
多后端支持
内部架构
使用统计
教程
使用 TGI
准备模型以供服务
服务私有及门控模型
使用 TGI CLI
非核心模型服务
安全
使用 Guidance、JSON、工具
视觉语言模型
使用 Prometheus 和 Grafana 监控 TGI
训练 Medusa
后端
Neuron
Gaudi
TensorRT-LLM
Llamacpp
参考
所有 TGI CLI 选项
导出的指标
API 参考
概念指南
V3 更新、缓存和分块
流式传输
量化
张量并行
PagedAttention
Safetensors
Flash Attention
推测 (Medusa, ngram)
Guidance 如何工作(通过轮廓)
LoRA (低秩适应)
外部资源
加入 Hugging Face 社区
并获得增强的文档体验
在模型、数据集和 Spaces 上进行协作
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
外部资源
Adyen 撰写了一篇详细文章,介绍了 TGI 的主要组件:路由器和服务器之间的相互作用。
使用 TGI 进行大规模 LLM 推理 (Martin Iglesias Goyanes - Adyen, 2024)
<
>
在 GitHub 上更新
←
LoRA (低秩适应)
外部
资源