text-generation-inference 文档

张量并行

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

以开始使用

张量并行

张量并行是一种将大型模型放入多个 GPU 的技术。例如,当将输入张量与第一个权重张量相乘时,矩阵乘法等同于按列分割权重张量,分别将每个列与输入相乘,然后连接单独的输出。然后将这些输出从 GPU 中传输出来并连接在一起以获得最终结果,如下所示 👇

Image courtesy of Anton Lozkhov

张量并行仅适用于 官方支持的模型,它在回退到 transformers 时将不起作用。您可以在 这里 获得有关不支持的模型的更多信息。

您可以从 transformers 文档 中了解有关张量并行的更多详细信息。

< > 更新 on GitHub