SetFit 文档
推理批量大小
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
推理批量大小
本操作指南将探讨增加 SetFitModel.predict() 中批量大小的影响。
它们是什么?
在 GPU 上处理时,通常并非所有数据都能一次性放入 GPU 的显存中。因此,数据会被分割成预定批量大小的**批次**。这在训练和推理期间都会进行。在这两种情况下,增加批量大小通常会对处理效率和显存使用产生显著影响,因为数据在 GPU 之间传输可能相对较慢。
对于推理,通常建议设置较高的批量大小以获得显著更快的处理速度。
在 SetFit 中
SetFit 中的推理批量大小设置为 32,但可以通过向 SetFitModel.predict() 传递 batch_size
参数来影响它。例如,在基于 paraphrase-mpnet-base-v2 Sentence Transformer 的 RTX 3090 上,可以达到以下吞吐量:
本实验中,每个句子由 11 个单词组成。
默认批量大小 32 并未在此硬件上实现最高吞吐量。请考虑尝试不同的批量大小以达到您可能实现的最高吞吐量。
< > 在 GitHub 上更新