optimum-tpu

Jetstream Pytorch 和 PyTorch XLA 之间的区别

本指南向 optimum-tpu 用户解释 Jetstream Pytorch 和 PyTorch XLA 之间的区别，因为它们是 TGI 中可用的两种后端。

JetStream PyTorch 是一个基于 PyTorch XLA 构建的高性能推理引擎。它在 TPU 上运行大型语言模型 (LLM) 时针对吞吐量和内存效率进行了优化。

注意：默认情况下，optimum-tpu 使用 PyTorch XLA 进行训练，使用 Jetstream Pytorch 进行服务。

您可以配置 optimum-tpu 以使用任一版本进行 TGI 服务。您可以通过在 docker 运行参数中设置 -e JETSTREAM_PT_DISABLE=1 来在 TGI 中使用 Pytorch XLA 后端。

您可以找到更多关于以下内容的信息