AWS Trainium 和 Inferentia

Llama-3.3-70b 在 AWS Inferentia2 上的性能（延迟与吞吐量）

Llama-3.3-70b 在 Inferentia2 上的速度有多快？让我们来一探究竟！

本次基准测试将使用以下配置

注意：所有模型都经过编译，以使用 inf2.48xlarge 实例上的 12 个设备，对应 24 个核心。

注意：有关可用实例的详细信息，请参阅 inferentia2 产品页面。

首个 Token 生成时间

首个 Token 生成时间是指处理输入 Token 并生成第一个输出 Token 所需的时间。这是一个非常重要的指标，因为它对应于用户在流式接收生成 Token 时直接感知的延迟。

我们测试了在不断增加的上下文大小下首个 Token 的生成时间，从典型的问答（Q/A）使用场景到重度的检索增强生成（RAG）用例。

首个 Token 生成时间以**秒**为单位。

Llama3.3 70b inferentia2 TTFT

Token 间延迟是指生成两个连续 Token 之间经过的平均时间。

它以**毫秒**为单位。

Llama3.3 70b inferentia2 inter-token latency

与其他一些基准测试不同，我们仅使用生成的 Token 来评估吞吐量，方法是将其数量除以端到端延迟。

吞吐量以**词元/秒（tokens/second）**为单位。

Llama3.3 70b inferentia2 throughput