AWS Trainium 和 Inferentia 文档

Mistral-Small-Instruct 在 AWS Inferentia2 上的性能(延迟和吞吐量)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

Mistral-Small-Instruct 在 AWS Inferentia2 上的性能(延迟和吞吐量)

Mistral 在 Inferentia2 上的速度有多快?让我们来找出答案!

在此基准测试中,我们将使用以下配置

模型类型 batch_size sequence_length
Mistral-Small BS1 1 4096
Mistral-Small BS4 4 4096

注意:所有模型都经过编译以使用 6 个设备,对应于 inf2.48xlarge 实例上的 12 个核心。

注意:请参阅 inferentia2 产品页面 了解有关可用实例的详细信息。

首个 token 的时间

首个 token 的时间是指处理输入 token 并生成第一个输出 token 所需的时间。这是一个非常重要的指标,因为它对应于用户在流式传输生成 token 时直接感知到的延迟。

我们测试了不同上下文大小的首个 token 的时间,从典型的问答使用情况到重量级的检索增强生成 (RAG) 使用情况。

首个 token 的时间以**秒**表示。

Mistral Small inferentia2 TTFT

token 间延迟

token 间延迟对应于两个生成 token 之间经过的平均时间。

它以**毫秒**表示。

Mistral Small inferentia2 inter-token latency

吞吐量

与其他一些基准测试不同,我们使用仅生成的 token 来评估吞吐量,方法是将 token 数除以端到端延迟。

吞吐量以**token/秒**表示。

Mistral Small inferentia2 throughput