Hugging Face
模型
数据集
Spaces
帖子
文档
解决方案
定价
登录
注册
文本生成推理文档
外部资源
文本生成推理
🏡 查看所有文档
AWS Trainium & Inferentia
加速器
Amazon SageMaker
Argilla
AutoTrain
Bitsandbytes
聊天界面
竞赛
数据集查看器
数据集
Diffusers
Distilabel
评估
Google Cloud
Google TPU
Gradio
Hub
Hub Python 库
Huggingface.js
推理 API(无服务器)
推理端点(专用)
排行榜
Optimum
PEFT
Safetensors
Sentence Transformers
TRL
任务
文本嵌入推理
文本生成推理
分词器
Transformers
Transformers.js
timm
搜索文档
主
英文
入门
文本生成推理
快速入门
支持的模型
使用 TGI 与 Nvidia GPU
使用 TGI 与 AMD GPU
使用 TGI 与 Intel Gaudi
使用 TGI 与 AWS Inferentia
使用 TGI 与 Intel GPU
从源代码安装
内部架构
使用统计
教程
使用 TGI
准备模型以供服务
服务私有和受限模型
使用 TGI CLI
非核心模型服务
安全
使用 Guidance、JSON 和工具
视觉语言模型
使用 Prometheus 和 Grafana 监控 TGI
训练 Medusa
参考
所有 TGI CLI 选项
导出指标
API 参考
概念指南
流式传输
量化
张量并行
PagedAttention
Safetensors
Flash Attention
推测(Medusa,ngram)
Guidance 如何工作(通过大纲)
LoRA(低秩自适应)
外部资源
加入 Hugging Face 社区
并获得增强型文档体验
协作模型、数据集和 Spaces
使用加速推理获得更快的示例
在文档主题之间切换
注册
开始使用
外部资源
Adyen 撰写了一篇详细的文章,介绍了 TGI 主要组件(路由器和服务器)之间的相互作用。
使用 TGI 大规模进行 LLM 推理(Martin Iglesias Goyanes - Adyen,2024)
<
>
更新
在 GitHub 上
←
LoRA(低秩自适应)
外部
资源