optimum-tpu 文档

Jetstream Pytorch 和 PyTorch XLA 之间的区别

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Jetstream Pytorch 和 PyTorch XLA 之间的区别

本指南向 optimum-tpu 用户解释 Jetstream Pytorch 和 PyTorch XLA 之间的区别,因为它们是 TGI 中两个可用的后端。

JetStream PyTorch 是一个高性能推理引擎,构建于 PyTorch XLA 之上。它针对在 TPU 上运行大型语言模型 (LLM) 时的吞吐量和内存效率进行了优化。

特性 Jetstream Pytorch PyTorch XLA
训练
服务
性能 更高的服务性能 标准性能
灵活性 仅限于服务 完整的 PyTorch 生态系统
使用场景 生产环境推理 开发和训练
集成 针对部署进行了优化 标准 PyTorch 工作流程

注意: 默认情况下,optimum-tpu 使用 PyTorch XLA 进行训练,并使用 Jetstream Pytorch 进行服务。

您可以配置 optimum-tpu 以使用任一版本通过 TGI 进行服务。您可以通过在 docker 运行参数中设置 -e JETSTREAM_PT_DISABLE=1 在 TGI 中使用 Pytorch XLA 后端。

您可以找到更多关于