提示缓存功能现在已在 Anthropic API 上可用,它使开发人员能够在 API 调用之间缓存常用上下文。借助提示缓存,客户可以为 Claude 提供更多背景知识和示例输出,同时将长提示的成本降低高达 90%,延迟降低高达 85%。提示缓存功能现已在 Claude 3.5 Sonnet 和 Claude 3 Haiku 的公开测试版中推出,即将推出对 Claude 3 Opus 的支持。
何时使用即时缓存
当您想要一次发送大量提示上下文,然后在后续请求中反复引用该信息时,提示缓存会非常有效,包括:
- 对话代理:减少长时间对话的成本和延迟,尤其是那些包含长指令或上传文档的对话。
- 编码助手:通过在提示中保留代码库的汇总版本来改进自动完成和代码库问答。
- 大型文档处理:在提示中包含完整的长篇材料(包括图像)而不会增加响应延迟。
- 详细的指令集:分享大量指令、程序和示例,以微调 Claude 的响应。开发人员通常会在提示中包含一些示例,但使用提示缓存,您可以通过包含数十个高质量输出的不同示例来获得更好的性能。
- 代理搜索和工具使用:增强涉及多轮工具调用和迭代更改的场景的性能,其中每个步骤通常都需要新的 API 调用。
- 与书籍、论文、文档、播客记录和其他长篇内容对话:将整个文档嵌入提示中,并让用户提出问题,使任何知识库变得生动有趣。
早期客户已经看到了针对各种用例的提示缓存带来的显著速度和成本改进——从包含完整的知识库到 100 个示例,再到在提示中包含每次对话。
用例 | 无缓存时的延迟(第一个令牌的时间) | 带缓存的延迟(第一个令牌的时间) | 降低成本 |
---|---|---|---|
和一本书聊天(100,000 个 token 缓存提示)[1] | 11.5秒 | 2.4 秒(-79%) | -90% |
多次提示(10,000 个 token 提示)[1] | 1.6秒 | 1.1秒(-31%) | -86% |
多轮对话(10 轮对话,带有较长的系统提示) [2] | ~10秒 | ~2.5秒(-75%) | -53% |
我们如何为缓存提示定价
缓存提示的价格取决于您缓存的输入令牌数量以及您使用该内容的频率。对于任何给定模型,写入缓存的成本比我们的基本输入令牌价格高出 25%,而使用缓存内容则便宜得多,成本仅为基本输入令牌价格的 10%。
克劳德 3.5 十四行诗我们迄今为止最智能的模型200K 上下文窗口 | 输入3 美元/吨 | 及时缓存$3.75 / MTok -缓存写入$0.30 / MTok – 缓存读取 | 输出15 美元/吨 |
克劳德 3 作品适用于复杂任务的强大模型200K 上下文窗口 | 输入15 美元/吨 | 提示缓存即将推出$18.75 / MTok -缓存写入$1.50 / MTok – 缓存读取 | 输出75 美元/吨 |
克劳德 3 俳句最快、最具成本效益的型号200K 上下文窗口 | 输入0.25 美元/百万 | 及时缓存$0.30 / MTok -缓存写入$0.03 / MTok – 缓存读取 | 输出1.25 美元/百万 |
客户聚焦:Notion
Notion正在为其人工智能助手 Notion AI 的 Claude 功能添加快速缓存功能。通过降低成本和提高速度,Notion 能够优化内部运营,并为客户创造更高级、响应更快的用户体验。
我们很高兴使用快速缓存让 Notion AI 更快、更便宜,同时保持最先进的质量。
— Notion 联合创始人 Simon Last
开始使用
要开始使用 Anthropic API 上的提示缓存公开测试版,请浏览我们的文档和定价页面。
脚注
[1] 基于使用 Claude 3.5 Sonnet 并在缓存提示后使用 100-200 个标记动态指令进行测量。
[2] 基于使用 Claude 3.5 Sonnet 并以 5000 个 token 系统提示进行测量,其中约 100 个 token 用户消息和约 2000 个 token 来自 Claude 的响应。成本降低是在整个对话中进行测量的,延迟减少是针对中位数消息进行报告的。