AWS Trainium & Inferentia 文档
Llama-3.3-70b 在 AWS Inferentia2 上的性能(延迟与吞吐量)
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Llama-3.3-70b 在 AWS Inferentia2 上的性能(延迟与吞吐量)
Llama-3.3-70b 在 Inferentia2 上的速度有多快?让我们来一探究竟!
本次基准测试将使用以下配置
模型类型 | 批处理大小 | sequence_length |
---|---|---|
Llama3.3 70b BS1 | 1 | 4096 |
Llama3.3 70b BS4 | 4 | 4096 |
Llama3.3 70b BS8 | 8 | 4096 |
注意:所有模型都经过编译,以使用 inf2.48xlarge
实例上的 12 个设备,对应 24 个核心。
注意:有关可用实例的详细信息,请参阅 inferentia2 产品页面。
首个 Token 生成时间
首个 Token 生成时间是指处理输入 Token 并生成第一个输出 Token 所需的时间。这是一个非常重要的指标,因为它对应于用户在流式接收生成 Token 时直接感知的延迟。
我们测试了在不断增加的上下文大小下首个 Token 的生成时间,从典型的问答(Q/A)使用场景到重度的检索增强生成(RAG)用例。
首个 Token 生成时间以**秒**为单位。
Token 间延迟
Token 间延迟是指生成两个连续 Token 之间经过的平均时间。
它以**毫秒**为单位。
吞吐量
与其他一些基准测试不同,我们仅使用生成的 Token 来评估吞吐量,方法是将其数量除以端到端延迟。
吞吐量以**词元/秒(tokens/second)**为单位。