Prompt Caching 会是新的 RAG 吗?

社区文章 发布于 2024 年 8 月 21 日

最近,Claude 的开发公司 Anthropic 宣布了一项名为 Prompt Caching 的出色新功能。这项突破性的发展使得处理冗长文档的成本比以往任何时候都低,并且有可能彻底改变我们处理 AI 对话中大量静态信息的方式!
让我们深入探讨这对 AI 应用程序的激动人心之处。

什么是 Prompt Caching?

Prompt Caching 涉及存储系统提示——即对话的静态部分。这个系统提示可以包含大量内容,例如整本书、长篇研究论文或大型代码库。其工作原理如下:

  1. 系统提示在首次请求时进行缓存,产生一次性成本。
  2. 后续的用户查询仅针对这个缓存的上下文处理动态的用户输入。
  3. 这种方法大大加快了交互速度,并降低了重复查询的成本。

Prompt Caching 的要点

  • 系统提示与用户输入:系统提示(静态、缓存)与用户输入(动态、每次查询不同)是分开的。
  • 初始缓存成本:首次缓存系统提示时,其成本比标准输入定价高约 25%。
  • 后续查询节省:缓存后,针对缓存上下文处理新查询的成本仅为通常输入定价的约 10%。
  • 时间限制:缓存有效期为 5 分钟。在此之后,如果想继续使用系统提示,需要重新缓存。

示例

我在 HuggingFace 上用 一个简单的聊天界面 制作了一个 Gradio 应用程序,该应用程序使用了新的缓存 API。

在此示例中,我从 Github 存储库 (LLAMFactory) 上传了一份综合手册,并提出了一些问题。

系统提示在第一个问题之后被缓存,因此缓存仍为零。

之后,使用缓存版本,响应速度更快,成本更低(输入 token 的成本是通常成本的 10%)。

Prompt Caching 的可能用例

  1. 文档分析:缓存整本书或长文档。用户可以对内容提出多个问题,而无需每次都重新处理整个文本。
  2. 代码审查:在缓存中存储大型代码库。开发人员可以快速且廉价地查询代码的不同部分。
  3. 研究辅助:缓存全面的研究论文或数据集。研究人员可以探索数据的各个方面,而无需重复处理成本。
  4. 法律文档处理:存储整个法典或判例法数据库。律师可以以通常成本的一小部分快速查询相关信息。
  5. 教育工具:缓存教科书或课程材料。学生可以就内容提出大量问题,使互动学习更加可行且经济实惠。

请注意,Prompt Caching 仍有一些局限性。缓存仅在 5 分钟内有效,并且尚未兼容所有 Claude 模型。

结论

Prompt Caching 是使 AI 交互更高效、更具成本效益的重要一步,尤其是在处理大型静态数据集的应用程序中。通过大幅缩短后续查询的时间和成本,它为 AI 驱动的分析、学习和跨行业信息处理开辟了新的可能性。

社区

注册登录 发表评论