optimum-tpu 文档

Jetstream Pytorch 和 PyTorch XLA 之间的区别

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Jetstream Pytorch 和 PyTorch XLA 之间的区别

本指南向 optimum-tpu 用户解释 Jetstream Pytorch 和 PyTorch XLA 之间的区别,因为它们是 TGI 中可用的两种后端。

JetStream PyTorch 是一个基于 PyTorch XLA 构建的高性能推理引擎。它在 TPU 上运行大型语言模型 (LLM) 时针对吞吐量和内存效率进行了优化。

特性 Jetstream Pytorch PyTorch XLA
训练
服务
性能 更高的服务性能 标准性能
灵活性 仅限于服务 完整的 PyTorch 生态系统
用例 生产推理 开发和训练
集成 针对部署优化 标准 PyTorch 工作流程

注意:默认情况下,optimum-tpu 使用 PyTorch XLA 进行训练,使用 Jetstream Pytorch 进行服务。

您可以配置 optimum-tpu 以使用任一版本进行 TGI 服务。您可以通过在 docker 运行参数中设置 -e JETSTREAM_PT_DISABLE=1 来在 TGI 中使用 Pytorch XLA 后端。

您可以找到更多关于以下内容的信息