text-generation-inference 文档
张量并行
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
张量并行
张量并行是一种用于在多个 GPU 中拟合大型模型的技术。例如,当输入张量与第一个权重张量相乘时,矩阵乘法等效于按列拆分权重张量,将每列与输入单独相乘,然后连接单独的输出。然后将这些输出从 GPU 传输并连接在一起以获得最终结果,如下所示 👇
您可以从 `transformers` 文档中了解有关张量并行的更多详细信息。
< > 在 GitHub 上更新