Llama-2-13b 在 AWS Inferentia2 上的性能(延迟和吞吐量)
Llama-2-13b 在 Inferentia2 上的速度有多快?让我们找出答案!
对于这个基准测试,我们将使用以下配置
模型类型 | batch_size | sequence_length |
---|---|---|
Llama2 13B BS1 | 1 | 4096 |
Llama2 13B BS4 | 4 | 4096 |
Llama2 13B BS8 | 8 | 4096 |
Llama2 13B BS16 | 16 | 4096 |
注意:所有模型都经过编译,以使用在 inf2.48xlarge
实例上的 8 个内核对应的 4 个设备。
注意:有关可用实例的详细信息,请参阅 inferentia2 产品页面。
首个令牌时间
首个令牌时间是指处理输入令牌并生成第一个输出令牌所需的时间。这是一个非常重要的指标,因为它对应于用户在流式传输生成的令牌时直接感知的延迟。
我们测试了从典型的问答使用到繁重的检索增强生成(RAG)用例,随着上下文大小的增加而变化的首个令牌时间。
首个令牌时间以**秒**为单位表示。
令牌间延迟
令牌间延迟对应于两个生成的令牌之间经过的平均时间。
它以**毫秒**为单位表示。
吞吐量
与其他一些基准测试不同,我们仅使用生成的令牌来评估吞吐量,方法是将令牌数量除以端到端延迟。
吞吐量以**令牌/秒**表示。