AWS Trainium & Inferentia

Llama-2-13b 在 AWS Inferentia2 上的性能（延迟和吞吐量）

Llama-2-13b 在 Inferentia2 上的速度有多快？让我们找出答案！

对于这个基准测试，我们将使用以下配置

注意：所有模型都经过编译，以使用在 inf2.48xlarge 实例上的 8 个内核对应的 4 个设备。

注意：有关可用实例的详细信息，请参阅 inferentia2 产品页面。

首个令牌时间

首个令牌时间是指处理输入令牌并生成第一个输出令牌所需的时间。这是一个非常重要的指标，因为它对应于用户在流式传输生成的令牌时直接感知的延迟。

我们测试了从典型的问答使用到繁重的检索增强生成（RAG）用例，随着上下文大小的增加而变化的首个令牌时间。

首个令牌时间以**秒**为单位表示。

Llama2 13b inferentia2 TTFT

令牌间延迟对应于两个生成的令牌之间经过的平均时间。

它以**毫秒**为单位表示。

Llama2 13b inferentia2 inter-token latency

与其他一些基准测试不同，我们仅使用生成的令牌来评估吞吐量，方法是将令牌数量除以端到端延迟。

吞吐量以**令牌/秒**表示。

Llama2 13b inferentia2 throughput