Hugging Face
模型
数据集
Spaces
帖子
文档
企业版
定价
登录
注册
text-generation-inference 文档
外部资源
text-generation-inference
🏡 查看所有文档
AWS Trainium & Inferentia
Accelerate
Amazon SageMaker
Argilla
AutoTrain
Bitsandbytes
聊天 UI
竞赛
数据集查看器
数据集
Diffusers
Distilabel
Evaluate
Gradio
Hub
Hub Python 库
Hugging Face Generative AI Services (HUGS)
Huggingface.js
推理端点 (专用)
推理服务提供商
排行榜
Lighteval
Optimum
PEFT
Safetensors
Sentence Transformers
TRL
任务
文本嵌入推理
文本生成推理
分词器
Transformers
Transformers.js
smolagents
timm
搜索文档
main
EN
入门
Text Generation Inference
快速导览
支持的模型
将 TGI 与 Nvidia GPU 配合使用
将 TGI 与 AMD GPU 配合使用
将 TGI 与 Intel Gaudi 配合使用
将 TGI 与 AWS Trainium 和 Inferentia 配合使用
将 TGI 与 Google TPU 配合使用
将 TGI 与 Intel GPU 配合使用
从源代码安装
多后端支持
内部架构
使用统计
教程
使用 TGI
准备模型以进行服务
服务私有和门控模型
使用 TGI CLI
非核心模型服务
安全
使用 Guidance、JSON、工具
视觉语言模型
使用 Prometheus 和 Grafana 监控 TGI
训练 Medusa
后端
Neuron
Gaudi
TensorRT-LLM
Llamacpp
参考文档
所有 TGI CLI 选项
导出的指标
API 参考
概念指南
V3 更新、缓存和分块
流式传输
量化
张量并行
PagedAttention
Safetensors
Flash Attention
推测 (Medusa, ngram)
Guidance 的工作原理(通过 outlines)
LoRA (Low-Rank Adaptation)
外部资源
加入 Hugging Face 社区
并获得增强的文档体验
在模型、数据集和 Spaces 上协作
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
外部资源
Adyen 撰写了一篇关于 TGI 主要组件(路由器和服务器)之间相互作用的详细文章。
使用 TGI 实现大规模 LLM 推理 (Martin Iglesias Goyanes - Adyen, 2024)
<
>
在 GitHub 上更新
←
LoRA (Low-Rank Adaptation)
外部
资源