构建你自己的机器

在为深度学习构建机器时，最重要的考虑因素之一是 GPU 的选择。GPU 是深度学习的标准主力，因为它们拥有用于高效矩阵乘法的 Tensor Core 和高内存带宽。为了训练大型模型，你需要更强大的 GPU、多个 GPU，或者利用将部分负载卸载到 CPU 或 NVMe 的技术。

本指南提供了一些设置深度学习 GPU 的实用技巧。有关 GPU 的更详细讨论和比较，请参阅《为深度学习选择哪个 GPU(s)》博客文章。

电源

高端消费级 GPU 可能有两个或三个 PCIe 8 针电源插座，您应该确保每个插座都连接了相同数量的 12V PCIe 8 针电缆。不要使用**一分二电缆**（一根电缆在末端有两个分支）来连接两个插座，否则您将无法获得 GPU 的全部性能。

每根 PCIe 8 针电源线都应连接到电源单元（PSU）上的 12V 轨，并可提供高达 150W 的功率。其他 GPU 可能使用 PCIe 12 针连接器，可提供高达 500-600W 的功率。低端 GPU 可能只使用 PCIe 6 针连接器，提供高达 75W 的功率。

重要的是 PSU 具有稳定的电压，否则在峰值使用期间可能无法为 GPU 提供足够的电源以使其正常运行。

过热的 GPU 会降低其性能，如果太热甚至会关机以防止损坏。将 GPU 温度保持在 158 - 167 华氏度（70 - 75 摄氏度）之间，对于发挥全部性能和延长其寿命至关重要。一旦温度达到 183 - 194 华氏度（84 - 90 摄氏度），GPU 可能会开始限制性能。

当您的设置使用多个 GPU 时，考虑它们的连接方式很重要。NVLink 连接比 PCIe 桥接器更快，但您也应该考虑您使用的并行策略。例如，在 DistributedDataParallel 中，GPU 通信频率低于 ZeRO-DP。在这种情况下，较慢的连接并不那么重要。

运行以下命令检查您的 GPU 如何连接。

nvidia-smi topo -m

NVLink

无 NVLink