最后更新
2024年5月20日
本文档的目标是协调项目中的核心和社区努力,并分享今年接下来的计划!
章节
- 核心Chroma团队目前正在做什么?
- Chroma在未来6个月内将优先考虑什么?
- 哪些领域适合社区贡献?
核心Chroma团队目前正在做什么?#
- 🌩️ 将分布式系统作为托管服务上线(即“Hosted Chroma” - 注册等待名单!)
Chroma团队刚刚完成了什么?#
例如:
- 新 - Chroma 0.4 - 我们的首个面向生产的发布
- 🐍 更精简的仅限python-client的构建目标
- ✋ Google PaLM嵌入支持
- 🎣 OpenAI ChatGPT检索插件
Chroma在未来6个月内将优先考虑什么?#
下一个里程碑:☁️ 发布Hosted Chroma
我们将投资的领域
这不是一个详尽的列表,但这些是核心团队在未来几个月内最大的优先事项。在这些领域贡献时请谨慎,并请先与核心团队沟通。
- ⏩ 工作流程:构建工具来回答诸如:我应该使用哪种嵌入模型?我应该如何分割我的文档?
- 🌌 可视化:构建可视化工具,让开发者对嵌入空间有更直观的理解
- 🔀 查询计划器:构建工具以实现每查询和查询后转换
- 🔧 开发者体验:将Chroma扩展到CLI
- 📦 更简单的数据共享:致力于嵌入集合的序列化格式和更简单的数据共享
- 🔍 提高召回率:通过人类反馈微调嵌入转换
- 🧠 分析能力:聚类、去重、分类等
哪些领域适合社区贡献?#
这是你可以有更多自由发挥的地方(无需事先与我们同步)!
如果你对你的贡献想法不确定,欢迎在我们的Discord的#general
频道与我们聊天(@chroma)!我们很乐意尽我们所能支持你。
⚙️ 示例模板#
我们总是可以与AI生态系统的其他部分进行更多集成。如果你正在做一个集成并需要帮助,请告诉我们!
Chroma的其他优秀起点(请为更多内容发送PR 这里):
对于我们已有的集成,如LangChain
和LlamaIndex
,我们总是希望有更多的教程、演示、研讨会、视频和播客(我们在我们的博客上做了一些播客)。
📦 示例数据集#
对于开发者来说,使用相同的嵌入模型一遍又一遍地嵌入相同的信息是没有意义的。
我们希望得到以下建议:
- “小”(<100行)
- “中等”(<5MB)
- “大”(>1GB)
数据集,供人们在各种场景下对Chroma进行压力测试。
⚖️ 嵌入比较#
Chroma默认使用Sentence Transformers进行嵌入,但我们对使用哪种嵌入模型没有特别的偏好。拥有一个由许多模型嵌入的信息库,以及示例查询集,将使在不同领域对各种模型的有效性进行实证工作变得更加容易。
⚗️ 实验性算法#
如果你有研究背景,请考虑为我们的ExperimentalAPI
做出贡献。例如:
- 投影(t-sne, UMAP, 新的热门算法,你刚刚写的那个)和轻量级可视化
- 聚类(HDBSCAN, PCA)
- 去重
- 多模态(CLIP)
- 通过人类反馈微调流形 例如
- 扩展向量搜索(MMR, Polytope)
- 你的研究
🧑💻️ 额外的客户端SDK#
我们将很高兴与社区中维护额外客户端SDK的人合作。具体来说:
- Ruby
- Clojure
- Elixir
你可以在后端运行时在localhost:8000/openapi.json
找到REST OpenAPI规范。
请在项目进展过深之前联系我们并与我们交谈,以便我们提供技术指导/在路线图上保持一致。