text-generation-inference 文档

张量并行

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

张量并行

张量并行是一种用于在多个 GPU 中拟合大型模型的技术。 例如,当将输入张量与第一个权重张量相乘时,矩阵乘法等效于按列拆分权重张量,将每列与输入分别相乘,然后连接单独的输出。 这些输出随后从 GPU 传输并连接在一起以获得最终结果,如下所示 👇

Image courtesy of Anton Lozkhov

张量并行仅适用于官方支持的模型,当回退到 transformers 时将不起作用。 您可以在此处获得有关不支持模型的更多信息。

您可以从 transformers 文档中了解有关张量并行的更多详细信息。

< > GitHub 上更新