Hugging Face
模型
数据集
Spaces
帖子
文档
解决方案
价格
登录
注册
文本生成推理文档
使用 TGI 与 Inferentia
文本生成推理
🏡 查看所有文档
AWS Trainium & Inferentia
加速
Amazon SageMaker
Argilla
AutoTrain
Bitsandbytes
聊天界面
竞赛
数据集查看器
数据集
Diffusers
Distilabel
评估
Google Cloud
Google TPUs
Gradio
Hub
Hub Python 库
Huggingface.js
推理 API(无服务器)
推理端点(专用)
排行榜
Optimum
PEFT
Safetensors
Sentence Transformers
TRL
任务
文本嵌入推理
文本生成推理
分词器
Transformers
Transformers.js
timm
搜索文档
主
EN
入门
文本生成推理
快速游览
支持的模型
使用 TGI 与 Nvidia GPU
使用 TGI 与 AMD GPU
使用 TGI 与 Intel Gaudi
使用 TGI 与 AWS Inferentia
使用 TGI 与 Intel GPU
从源代码安装
内部架构
使用统计
教程
使用 TGI
准备模型用于服务
服务私有和受限模型
使用 TGI CLI
非核心模型服务
安全
使用 Guidance、JSON、工具
视觉语言模型
使用 Prometheus 和 Grafana 监控 TGI
训练 Medusa
参考
所有 TGI CLI 选项
导出的指标
API 参考
概念指南
流式传输
量化
张量并行
PagedAttention
Safetensors
Flash Attention
推测(Medusa,ngram)
Guidance 如何运作(通过大纲)
LoRA(低秩自适应)
外部资源
加入 Hugging Face 社区
并获得增强型文档体验
协作模型、数据集和 Spaces
使用加速推理实现更快的示例
切换文档主题
注册
以开始
使用 TGI 与 Inferentia
查看此
指南
,了解如何在 Inferentia2 上使用 TGI 服务模型。
<
>
更新
on GitHub
←
使用 TGI 与 Intel Gaudi
使用 TGI 与 Intel GPU
→
使用 TG
I 与
Inferentia