🛣️ 路线图

本文档的目标是协调项目中的核心社区努力,并分享今年接下来的计划!

章节

  • 核心Chroma团队目前正在做什么?
  • Chroma在未来6个月内将优先考虑什么?
  • 哪些领域适合社区贡献?

核心Chroma团队目前正在做什么?#

  • 🌩️ 将分布式系统作为托管服务上线(即“Hosted Chroma” - 注册等待名单!)

Chroma团队刚刚完成了什么?#

例如:

  • - Chroma 0.4 - 我们的首个面向生产的发布
  • 🐍 更精简的仅限python-client的构建目标
  • ✋ Google PaLM嵌入支持
  • 🎣 OpenAI ChatGPT检索插件

Chroma在未来6个月内将优先考虑什么?#

下一个里程碑:☁️ 发布Hosted Chroma

我们将投资的领域

这不是一个详尽的列表,但这些是核心团队在未来几个月内最大的优先事项。在这些领域贡献时请谨慎,并请先与核心团队沟通。

  • 工作流程:构建工具来回答诸如:我应该使用哪种嵌入模型?我应该如何分割我的文档?
  • 🌌 可视化:构建可视化工具,让开发者对嵌入空间有更直观的理解
  • 🔀 查询计划器:构建工具以实现每查询和查询后转换
  • 🔧 开发者体验:将Chroma扩展到CLI
  • 📦 更简单的数据共享:致力于嵌入集合的序列化格式和更简单的数据共享
  • 🔍 提高召回率:通过人类反馈微调嵌入转换
  • 🧠 分析能力:聚类、去重、分类等

哪些领域适合社区贡献?#

这是你可以有更多自由发挥的地方(无需事先与我们同步)!

如果你对你的贡献想法不确定,欢迎在我们的Discord#general频道与我们聊天(@chroma)!我们很乐意尽我们所能支持你。

⚙️ 示例模板#

我们总是可以与AI生态系统的其他部分进行更多集成。如果你正在做一个集成并需要帮助,请告诉我们!

Chroma的其他优秀起点(请为更多内容发送PR 这里):

对于我们已有的集成,如LangChainLlamaIndex,我们总是希望有更多的教程、演示、研讨会、视频和播客(我们在我们的博客上做了一些播客)。

📦 示例数据集#

对于开发者来说,使用相同的嵌入模型一遍又一遍地嵌入相同的信息是没有意义的。

我们希望得到以下建议:

  • “小”(<100行)
  • “中等”(<5MB)
  • “大”(>1GB)

数据集,供人们在各种场景下对Chroma进行压力测试。

⚖️ 嵌入比较#

Chroma默认使用Sentence Transformers进行嵌入,但我们对使用哪种嵌入模型没有特别的偏好。拥有一个由许多模型嵌入的信息库,以及示例查询集,将使在不同领域对各种模型的有效性进行实证工作变得更加容易。

⚗️ 实验性算法#

如果你有研究背景,请考虑为我们的ExperimentalAPI做出贡献。例如:

  • 投影(t-sne, UMAP, 新的热门算法,你刚刚写的那个)和轻量级可视化
  • 聚类(HDBSCAN, PCA)
  • 去重
  • 多模态(CLIP)
  • 通过人类反馈微调流形 例如
  • 扩展向量搜索(MMR, Polytope)
  • 你的研究

🧑‍💻️ 额外的客户端SDK#

我们将很高兴与社区中维护额外客户端SDK的人合作。具体来说:

  • Ruby
  • Clojure
  • Elixir

你可以在后端运行时在localhost:8000/openapi.json找到REST OpenAPI规范。

请在项目进展过深之前联系我们并与我们交谈,以便我们提供技术指导/在路线图上保持一致。