Prompt Caching 会是新的 RAG 吗？

社区文章发布于 2024 年 8 月 21 日

最近，Claude 的开发公司 Anthropic 宣布了一项名为 Prompt Caching 的出色新功能。这项突破性的发展使得处理冗长文档的成本比以往任何时候都低，并且有可能彻底改变我们处理 AI 对话中大量静态信息的方式！
让我们深入探讨这对 AI 应用程序的激动人心之处。

什么是 Prompt Caching？

Prompt Caching 涉及存储系统提示——即对话的静态部分。这个系统提示可以包含大量内容，例如整本书、长篇研究论文或大型代码库。其工作原理如下：

我在 HuggingFace 上用一个简单的聊天界面制作了一个 Gradio 应用程序，该应用程序使用了新的缓存 API。

在此示例中，我从 Github 存储库 (LLAMFactory) 上传了一份综合手册，并提出了一些问题。

系统提示在第一个问题之后被缓存，因此缓存仍为零。

之后，使用缓存版本，响应速度更快，成本更低（输入 token 的成本是通常成本的 10%）。

请注意，Prompt Caching 仍有一些局限性。缓存仅在 5 分钟内有效，并且尚未兼容所有 Claude 模型。

Prompt Caching 是使 AI 交互更高效、更具成本效益的重要一步，尤其是在处理大型静态数据集的应用程序中。通过大幅缩短后续查询的时间和成本，它为 AI 驱动的分析、学习和跨行业信息处理开辟了新的可能性。

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论