SetFit 文档

推理批量大小

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

推理批量大小

本操作指南将探讨增加 SetFitModel.predict() 中批量大小的影响。

它们是什么?

在 GPU 上处理时,通常并非所有数据都能一次性放入 GPU 的显存中。因此,数据会被分割成预定批量大小的**批次**。这在训练和推理期间都会进行。在这两种情况下,增加批量大小通常会对处理效率和显存使用产生显著影响,因为数据在 GPU 之间传输可能相对较慢。

对于推理,通常建议设置较高的批量大小以获得显著更快的处理速度。

在 SetFit 中

SetFit 中的推理批量大小设置为 32,但可以通过向 SetFitModel.predict() 传递 batch_size 参数来影响它。例如,在基于 paraphrase-mpnet-base-v2 Sentence Transformer 的 RTX 3090 上,可以达到以下吞吐量:

setfit_speed_per_batch_size

本实验中,每个句子由 11 个单词组成。

默认批量大小 32 并未在此硬件上实现最高吞吐量。请考虑尝试不同的批量大小以达到您可能实现的最高吞吐量。

< > 在 GitHub 上更新