AI 总拥有成本计算器:评估内部 AI 部署与 AI API 的成本
随着企业越来越倾向于 AI 转型——这在很大程度上要归功于 ChatGPT 等突破性技术——语言模型 (LLM) 具有广泛的应用范围,可以显著改变行业,这一点变得显而易见。问题正在从“它会带来什么价值?”转向“我们现在如何实施它?”您应该选择内部部署还是 SaaS 产品?如何评估这两种方案的财务和运营影响?
我们推出了一个AI 总拥有成本计算器,以便更轻松地比较它们的成本。该演示使用 Gradio 构建,可在我们的 Hugging Face Space 上找到。
LLM 的“自建”与“购买”困境
OpenAI GPT3.5 和 GPT4 API、Cohere 或 Anyscale 等 SaaS 解决方案通常是 AI 模型集成的首选。通过全面管理基础设施复杂性并提供易于使用的 API,它们非常易于开发人员集成。
然而,开源替代方案,例如 Meta 的 Llama 2,也可以是强有力的替代品。事实上,它们解决了求助于外部 SaaS AI 提供商所带来的隐私问题。理论上,它们是“免费的”,因为使用它们没有成本,但是它们在操作所需的基础设施和劳动力方面有很大的隐性成本。
模型的开源部署可能具有很大的初始成本,可以通过大量使用和时间来分摊,但确切知道何时选择其中一个而不是另一个可能很复杂。这就是我们引入 AI 总拥有成本比较计算器 (TCO) 计算器来协助这一复杂决策过程的原因。该工具通过评估以下内容来促进深入分析:
- 每次请求的成本(即提供服务一次以处理用户输入并生成答案或执行任务的成本)
- 劳动力成本(即工程师部署和监督模型运行的成本)
- 和总设置 TCO(使服务启动并运行的总成本)
我们的计算器是一个开源项目,欢迎 AI 社区的任何人贡献!
使用 TCO 计算器对银行聊天机器人进行真实案例分析
假设您是银行的 AI 项目经理,希望通过银行聊天机器人为客户提供财务建议。您希望就银行是应该实施本地解决方案还是选择基于云的替代方案进行成本分析。以下是您如何进行操作。
- 选择最适合您场景的用例
您可以选择自定义每次请求的输入和输出令牌数量。标准值已根据所选用例预设。
- 选择两个 AI 服务选项进行比较
在我们的示例中,让我们比较 OpenAI GPT4 和 Llama2 70B。
要了解更多信息或自定义参数,请单击信息框。

在这里,您可以自定义您的劳动力成本。
- 单击“计算并比较”
然后您将收到一个信息和结果面板。
表格和条形图提供了每次请求的成本、劳动力成本和平均延迟的比较。最后一个图表说明了 TCO(美元)作为服务每月请求数量的函数。
在银行聊天机器人示例中,您可以注意到内部部署的盈亏平衡点约为每月 750,000 次请求。
假设每个客户每月与聊天机器人互动 5 次,并且每次对话涉及大约 5 个请求,则盈亏平衡点是 30,000 个客户使用服务。超过此点,OpenAI GPT4 SaaS 服务的成本将高于开源 Llama2 70B 解决方案。
每个选项的经济可行性取决于预期的请求量。
计算说明:
本文的这一部分分解了我们成本建模背后的计算。如果您对计算器的技术方面感兴趣,请阅读此部分。
假设
AI TCO 计算器仅关注部署和运行成本。不考虑额外的硬件维护或劳动力的大量重新投入成本。
总 AI TCO 是两项主要开支的总和:基础设施成本(硬件和软件设置)和劳动力成本(工程师所做的工作)。
- 基础设施成本:我们计算产品的每次请求成本。
- 劳动力成本:估算部署和运行模型所需的 AI 工程师平均每月工作量。
但是,您应该根据您的团队(考虑采购类型和 AI 工程师的可用性)调整此值。
关于我们为计算器中最初放入的模型所做的选择,我们尝试确保它们基于现有基准测试结果具有可比较的性能水平,尽管存在差异。
TCO 计算公式
以下公式表示每月服务请求数量的每月总 AI 设置 TCO
以下是用于计算每次请求成本的公式
每 1000 个输入和输出令牌的成本取决于您选择的服务基础设施。这些值要么由服务提供商设定,要么根据特定模型的基准测试结果确定。
输入和输出令牌取决于用例,并且可以调整,如上例所示。
例如,考虑使用 OpenAI GPT3.5 Turbo 评估银行聊天机器人的请求成本。OpenAI GPT3.5 的定价是每 1k 输入令牌 0.0015 美元,每 1k 输出令牌 0.002 美元。假设有 300 个输入令牌和 300 个输出令牌
第一种方法:自行部署
基础设施成本
使用开源模型部署 AI 服务需要特定的基础设施。
高效运行 Llama2 70B 或 Falcon 40B 等大型模型需要强大的计算机设置(VM),通常配备高质量的 GPU。例如,Azure 租用 40GB A100 GPU 每小时 27.197 美元。
在此基础上,每令牌成本由以下公式确定:
每秒处理的令牌数量受 GPU 满负荷利用率百分比的影响,该百分比可能有所不同。例如,如果早上用户更活跃,需求达到高峰,那么 GPU 将满负荷利用,我们利用了使用的大批量大小。相反,在凌晨 2 点,GPU 可能未充分利用,但它们的成本仍然相同,因此大大增加了每令牌成本。
租用 GPU 且仅使用其部分容量会增加每项任务的成本,从而使每个请求的成本更高。
对于使用 Llama2 70B 的“自行部署”服务,我们从现有基准测试中获取了每令牌输入和输出成本值。这些测试是在两个 80GB A100 GPU 上进行的,并使用与上述相同的公式计算,此外还将最大利用率百分比添加到我们的成本模型中。
劳动力成本
设置此服务需要一到两名 AI 工程师的实际操作。我们估计他们的劳动力成本为每月 5,000 美元(一名 AI 工程师每年 180,000 美元工作成本的三分之一,平均每月:5,000=180,0003 * 12)。此费用可能因服务规模和部署公司的团队组成而异。
第二种方法:SaaS
基础设施成本
通过 SaaS,服务提供商处理所有基础设施方面,收取使用费。您可以在 OpenAI 或 Cohere 等公司网站上查看定价详情。
用户仍然可以选择一些参数,例如上下文大小或微调可能性,这会影响产品的定价。
劳动力成本
SaaS 解决方案已投入运营,无需额外部署工作,因此不会产生任何相关劳动力成本。
我们的成本建模的局限性
我们简化的方法忽略了准确性作为计算中的一个因素。全面的成本建模将考虑每次请求的准确性成本。例如,虽然 OpenAI 的 GPT4 在准确性方面表现出色,但它可能不是计算器中最具成本效益的选择。
我们没有考虑特定用例的微调需求,这可能会影响整体 AI 服务成本。初期更多的技术和计算密集型工作将增加基础设施和劳动力成本。例如,要使 Llama2 70B 像 GPT4 一样准确,需要进行大量的微调。
最后,隐私这个关键标准没有被解决。我们以后可能会在计算器中添加注重隐私的模型。请注意,根据定义,SaaS 解决方案对隐私的关注度较低,因为您必须信任提供商处理您的数据。
贡献您自己的 AI 模型服务
如果您想将您的 AI 模型服务添加到 AI TCO 计算器的选项中,您可以按照我们的“如何贡献”教程操作。
请注意,在开始之前,您必须知道您的服务的每个输入和输出令牌的成本值。
结论
选择合适的 AI 部署解决方案可能比预期更复杂。正如我们所看到的,当我们真正考虑内部部署 LLM 的所有成本(例如每次请求的成本和劳动力成本)时,AI API 相当具有竞争力。
计算实际成本时需要考虑许多因素,我们希望借助此计算器,您能更轻松地评估每个选项。