推理批量大小

本操作指南将探讨增加 SetFitModel.predict() 中批量大小的影响。

它们是什么？

在 GPU 上处理时，通常并非所有数据都能一次性放入 GPU 的显存中。因此，数据会被分割成预定批量大小的**批次**。这在训练和推理期间都会进行。在这两种情况下，增加批量大小通常会对处理效率和显存使用产生显著影响，因为数据在 GPU 之间传输可能相对较慢。

对于推理，通常建议设置较高的批量大小以获得显著更快的处理速度。

在 SetFit 中

SetFit 中的推理批量大小设置为 32，但可以通过向 SetFitModel.predict() 传递 batch_size 参数来影响它。例如，在基于 paraphrase-mpnet-base-v2 Sentence Transformer 的 RTX 3090 上，可以达到以下吞吐量：

setfit_speed_per_batch_size

本实验中，每个句子由 11 个单词组成。

默认批量大小 32 并未在此硬件上实现最高吞吐量。请考虑尝试不同的批量大小以达到您可能实现的最高吞吐量。

< > 在 GitHub 上更新