Context Caching with LLMs

使用Gemini 1.5 Flash进行上下文缓存

Google最近发布了一个名为context-caching(在新标签页中打开)的新功能,该功能可通过Gemini 1.5 Pro和Gemini 1.5 Flash模型通过Gemini API使用。本指南提供了一个基本示例,说明如何在Gemini 1.5 Flash中使用context-caching。

https://youtu.be/987Pd89EDPs?si=j43isgNb0uwH5AeI (在新标签页中打开)

用例:分析一年的机器学习论文

本指南展示了如何使用上下文缓存来分析我们过去一年记录的所有ML论文摘要 (在新标签页中打开)。我们将这些摘要存储在一个文本文件中,现在可以将其输入到Gemini 1.5 Flash模型中并进行高效查询。

过程:上传、缓存和查询

  1. 数据准备: 首先将包含摘要的自述文件转换为纯文本文件。
  2. 利用Gemini API: 您可以使用Google的generativeai库上传文本文件。
  3. 实现上下文缓存: 使用caching.CachedContent.create()函数创建一个缓存。这包括:
    • 指定Gemini Flash 1.5模型。
    • 为缓存提供一个名称。
    • 为模型定义一个指令(例如,“你是一位专家AI研究员...”)。
    • 为缓存设置一个生存时间(TTL)(例如,15分钟)。
  4. 创建模型: 然后我们使用缓存的内容创建一个生成模型实例。
  5. 查询: 我们可以开始用自然语言问题查询模型,例如:
    • "你能告诉我本周最新的AI论文吗?"
    • "你能列出提到Mamba的论文吗?列出论文的标题和摘要。"
    • "长上下文LLM有哪些创新?列出论文的标题和摘要。"

结果令人鼓舞。模型准确地从文本文件中检索并总结了信息。上下文缓存被证明非常高效,消除了每次查询时重复发送整个文本文件的需要。

这个工作流程有潜力成为研究人员的宝贵工具,使他们能够:

  • 快速分析和查询大量研究数据。
  • 检索特定发现,无需手动搜索文档。
  • 在不浪费提示令牌的情况下进行互动研究会话。

我们很高兴探索上下文缓存的进一步应用,特别是在更复杂的场景中,如代理工作流程。

笔记本可以在下面找到: