AWS Trainium & Inferentia 文档

Mistral-Small-Instruct 在 AWS Inferentia2 上的性能表现(延迟 & 吞吐量)

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

Mistral-Small-Instruct 在 AWS Inferentia2 上的性能表现(延迟 & 吞吐量)

Mistral 在 Inferentia2 上有多快?让我们来搞清楚!

对于此基准测试,我们将使用以下配置

模型类型 batch_size sequence_length
Mistral-Small BS1 1 4096
Mistral-Small BS4 4 4096

注意:所有模型都编译为使用 6 个设备,对应于 inf2.48xlarge 实例上的 12 个核心。

注意:有关可用实例的详细信息,请参阅 inferentia2 产品页面

首个 token 的时间

首个 token 的时间是处理输入 token 并生成首个输出 token 所需的时间。这是一个非常重要的指标,因为它直接对应于用户在流式传输生成的 token 时直接感知的延迟。

我们测试了针对不断增加的上下文大小的首个 token 的时间,从典型的问答使用场景到重型的检索增强生成 (RAG) 用例。

首个 token 的时间以为单位表示。

Mistral Small inferentia2 TTFT

token 间延迟

token 间延迟对应于两个生成的 token 之间经过的平均时间。

它以毫秒为单位表示。

Mistral Small inferentia2 inter-token latency

吞吐量

与其他一些基准测试不同,我们仅使用生成的 token 来评估吞吐量,方法是将 token 数量除以端到端延迟。

吞吐量以tokens/秒为单位表示。

Mistral Small inferentia2 throughput