AWS Trainium 和 Inferentia 文档

Mistral-7b-Instruct-v0.2 在 AWS Inferentia2 上的性能(延迟和吞吐量)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Mistral-7b-Instruct-v0.2 在 AWS Inferentia2 上的性能(延迟和吞吐量)

Mistralv0.2 在 Inferentia2 上的速度如何?让我们找出答案!

对于此基准测试,我们将使用以下配置

模型类型 batch_size sequence_length
Mistral 7B BS1 1 4096
Mistral 7B BS4 4 4096
Mistral 7B BS8 8 4096
Mistral 7B BS16 16 4096
Mistral 7B BS32 32 4096

注意:所有模型都已编译以使用对应于 inf2.48xlarge 实例上 8 个内核的 4 个设备。

注意:有关可用实例的详细信息,请参阅 inferentia2 产品页面

第一个令牌的时间

第一个令牌的时间是指处理输入令牌并生成第一个输出令牌所需的时间。这是一个非常重要的指标,因为它直接对应于用户在流式传输生成的令牌时感知到的延迟。

我们测试了从典型的问答使用到繁重的检索增强生成 (RAG) 用例的不同上下文大小的第一个令牌的时间。

第一个令牌的时间以 **秒** 为单位表示。

Mistral 7b inferentia2 TTFT

令牌间延迟

令牌间延迟对应于两个生成的令牌之间经过的平均时间。

它以 **毫秒** 为单位表示。

Mistral 7b inferentia2 inter-token latency

吞吐量

与其他一些基准测试不同,我们通过将生成的令牌数量除以端到端延迟来评估吞吐量,仅使用生成的令牌。

吞吐量以token/秒为单位表示。

Mistral 7b inferentia2 throughput