将 Artificial Analysis LLM 性能排行榜引入 Hugging Face

发布于 2024 年 5 月 3 日
在 GitHub 上更新

使用 LLM 构建应用程序不仅要考虑质量:对于许多用例而言,速度和价格同样重要,甚至更重要。

对于消费者应用程序和聊天体验,速度和响应能力对用户参与度至关重要。用户期望近乎即时的响应,延迟会直接导致参与度降低。当构建涉及工具使用或代理系统的更复杂应用程序时,速度和成本变得更加重要,并且可能成为整个系统能力的限制因素。LLM 顺序请求所需的时间会随着每个用户请求的增加而迅速累积,从而增加成本。

这就是 Artificial Analysis (@ArtificialAnlys) 开发了一个排行榜的原因,该排行榜评估了 100 多个无服务器 LLM API 端点的价格、速度和质量,现在该排行榜将引入 Hugging Face。

在此处查找排行榜:此处

LLM 性能排行榜

LLM 性能排行榜旨在提供全面的指标,以帮助 AI 工程师决定在 AI 应用程序中使用哪些 LLM(开放模型和专有模型)和 API 提供商。

在决定使用哪些 AI 技术时,工程师需要考虑质量、价格和速度(延迟和吞吐量)。LLM 性能排行榜将这三者结合在一起,以便在一个地方对专有模型和开放模型进行决策。

Untitled

来源:LLM 性能排行榜

指标覆盖范围

报告的指标包括

  • 质量:用于比较模型质量和准确性的简化指标,根据模型作者报告的 MMLU、MT-Bench、HumanEval 分数以及 Chatbot Arena 排名计算得出。
  • 上下文窗口:LLM 每次可以处理的最大令牌数(包括输入和输出令牌)。
  • 定价:提供商对查询模型进行推理收取的费用。我们报告每令牌的输入/输出定价,以及用于比较主机提供商的“混合”定价。我们将输入和输出定价按 3:1 的比例混合(即,假设输入长度是输出长度的 3 倍)。
  • 吞吐量:端点在推理期间输出令牌的速度,以每秒令牌数(通常称为 tokens/s 或“TPS”)衡量。我们报告过去 14 天内测量的中位数、P5、P25、P75 和 P95 值。
  • 延迟:请求发送后端点响应所需的时间,称为首次令牌时间(“TTFT”),以秒为单位测量。我们报告过去 14 天内测量的中位数、P5、P25、P75 和 P95 值。

有关更多定义,请参阅我们的完整方法页面

测试工作负载

排行榜允许探索不同工作负载下的性能(总共 6 种组合)

  • 更改提示长度:约 100 个令牌、约 1k 个令牌、约 10k 个令牌。
  • 运行并行查询:1 个查询,10 个并行查询。

方法

我们每天对排行榜上的每个 API 端点进行 8 次测试,排行榜数据代表过去 14 天的测量中位数。我们还在折叠选项卡中提供了百分位细分。

质量指标目前按模型收集,并显示模型创建者报告的结果,但请关注此页面,我们将开始分享我们对每个端点进行独立质量评估的结果。

有关更多定义,请参阅我们的完整方法页面

亮点(2024 年 5 月,最新信息请参阅排行榜)

  • 过去一年,语言模型市场复杂性爆炸式增长。近两个月内,震撼市场的发布包括 Anthropic 的 Claude 3 系列等专有模型,以及 Databricks 的 DBRX、Cohere 的 Command R Plus、Google 的 Gemma、Microsoft 的 Phi-3、Mistral 的 Mixtral 8x22B 和 Meta 的 Llama 3 等开放模型。
  • 不同模型和提供商之间的价格和速度差异很大。从 Claude 3 Opus 到 Llama 3 8B,价格差达 300 倍——这超过了两个数量级!
  • API 提供商加快了模型发布速度。在 48 小时内,有 7 家提供商提供了 Llama 3 模型。这说明了对新的开源模型的需求以及 API 提供商之间的竞争动态。
  • 按质量分段突出显示的关键模型
    • 高质量,通常价格更高且速度较慢:GPT-4 Turbo 和 Claude 3 Opus
    • 中等质量、价格和速度:Llama 3 70B、Mixtral 8x22B、Command R+、Gemini 1.5 Pro、DBRX
    • 质量较低,但速度快得多且价格较低:Llama 3 8B、Claude 3 Haiku、Mixtral 8x7B

Untitled

我们的质量与吞吐量(令牌/秒)图表显示了具有不同质量和性能特征的各种选项。

来源:artificialanalysis.ai/models

用例示例:速度和价格与质量同样重要

在某些情况下,涉及多个请求的设计模式使用更快更便宜的模型,不仅可以降低成本,还可以提高整体系统质量,这比使用单个更大的模型更好。

例如,考虑一个需要浏览网页以从最新新闻文章中查找相关信息的聊天机器人。一种方法是使用像 GPT-4 Turbo 这样的大型、高质量模型来运行搜索,然后阅读和处理前几篇文章。另一种方法是使用像 Llama 3 8B 这样更小、更快的模型并行阅读和提取数十个网页的亮点,然后使用 GPT-4 Turbo 评估和总结最相关的结果。第二种方法将更具成本效益,即使考虑到阅读了 10 倍以上的内容,并且可能产生更高质量的结果。

联系我们

请在 TwitterLinkedIn 上关注我们以获取更新。您可以通过上述任一平台以及我们的网站电子邮件联系我们。

社区

注册登录以评论