使用Gemini 1.5 Flash进行上下文缓存

Google最近发布了一个名为context-caching（在新标签页中打开）的新功能，该功能可通过Gemini 1.5 Pro和Gemini 1.5 Flash模型通过Gemini API使用。本指南提供了一个基本示例，说明如何在Gemini 1.5 Flash中使用context-caching。

https://youtu.be/987Pd89EDPs?si=j43isgNb0uwH5AeI (在新标签页中打开)

用例：分析一年的机器学习论文

本指南展示了如何使用上下文缓存来分析我们过去一年记录的所有ML论文摘要 (在新标签页中打开)。我们将这些摘要存储在一个文本文件中，现在可以将其输入到Gemini 1.5 Flash模型中并进行高效查询。

过程：上传、缓存和查询

数据准备： 首先将包含摘要的自述文件转换为纯文本文件。
利用Gemini API： 您可以使用Google的generativeai库上传文本文件。
实现上下文缓存： 使用caching.CachedContent.create()函数创建一个缓存。这包括：
- 指定Gemini Flash 1.5模型。
- 为缓存提供一个名称。
- 为模型定义一个指令（例如，“你是一位专家AI研究员...”）。
- 为缓存设置一个生存时间（TTL）（例如，15分钟）。
创建模型： 然后我们使用缓存的内容创建一个生成模型实例。
查询： 我们可以开始用自然语言问题查询模型，例如：
- "你能告诉我本周最新的AI论文吗？"
- "你能列出提到Mamba的论文吗？列出论文的标题和摘要。"
- "长上下文LLM有哪些创新？列出论文的标题和摘要。"

结果令人鼓舞。模型准确地从文本文件中检索并总结了信息。上下文缓存被证明非常高效，消除了每次查询时重复发送整个文本文件的需要。

这个工作流程有潜力成为研究人员的宝贵工具，使他们能够：

快速分析和查询大量研究数据。
检索特定发现，无需手动搜索文档。
在不浪费提示令牌的情况下进行互动研究会话。

我们很高兴探索上下文缓存的进一步应用，特别是在更复杂的场景中，如代理工作流程。

笔记本可以在下面找到：

Context Caching with Gemini APIs

Function Calling Generating Data