text-generation-inference 文档

张量并行

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

张量并行

张量并行是一种用于在多个 GPU 中拟合大型模型的技术。例如,当输入张量与第一个权重张量相乘时,矩阵乘法等效于按列拆分权重张量,将每列与输入单独相乘,然后连接单独的输出。然后将这些输出从 GPU 传输并连接在一起以获得最终结果,如下所示 👇

Image courtesy of Anton Lozkhov

张量并行仅适用于官方支持的模型,在回退到 `transformers` 时将不起作用。您可以在此处获取有关不受支持模型的更多信息。

您可以从 `transformers` 文档中了解有关张量并行的更多详细信息。

< > 在 GitHub 上更新