Retrievers | 🦜️🔗 LangChain

📄️ Activeloop Deep Memory

Activeloop Deep Memory 是一套工具，可以帮助您优化您的 Vector Store，以适应您的用例，并在 LLM 应用中实现更高的准确性。

📄️ Amazon Kendra

Amazon Kendra 是由 Amazon Web Services (AWS) 提供的智能搜索服务。它利用先进的自然语言处理（NLP）和机器学习算法，在组织内的各种数据源之间实现强大的搜索能力。Kendra 旨在帮助用户快速准确地找到所需信息，提高生产力和决策能力。

📄️ Arxiv

arXiv 是一个开放获取的学术论文存档，收录了来自物理学、数学、计算机科学、数量生物学、数量金融、统计学、电气工程与系统科学以及经济学等领域的 200 万篇学术论文。

AskNews 通过单一的自然语言查询为任何 LLM 注入最新的全球新闻（或历史新闻）。具体来说，AskNews 通过翻译、总结、提取实体并将它们索引到热向量和冷向量数据库中，每天丰富超过 30 万篇文章。AskNews 将这些向量数据库放在低延迟的端点上供您使用。当您查询 AskNews 时，您将得到一个经过优化的提示字符串，其中包含所有最相关的丰富信息（例如实体、分类、翻译、总结）。这意味着您无需管理自己的新闻 RAG，也无需担心如何以简洁的方式传达新闻信息给您的 LLM。

📄️ Azure AI 搜索

Azure AI 搜索（以前称为 Azure Cognitive Search）是微软的云搜索服务，为开发人员提供基础架构、API 和工具，用于大规模检索向量、关键字和混合查询的信息。

📄️ Bedrock（知识库）

亚马逊 Bedrock 的知识库是亚马逊网络服务（AWS）的一项服务，它允许您通过使用私人数据来定制 FM 响应，快速构建 RAG 应用程序。

📄️ BM25

BM25 (维基百科) 也被称为 Okapi BM25，是信息检索系统中用于估计文档与给定搜索查询相关性的排名函数。

📄️ BREEBS（开放知识）

BREEBS 是一个开放的协作知识平台。

📄️ Chaindesk

Chaindesk平台可以将来自任何地方的数据（数据源：文本、PDF、Word、PowerPoint、Excel、Notion、Airtable、Google Sheets等）导入到数据存储区（包含多个数据源的容器）中。

📄️ ChatGPT 插件

OpenAI 插件将 ChatGPT 与第三方应用程序连接起来。这些插件使 ChatGPT 能够与开发人员定义的 API 进行交互，增强了 ChatGPT 的功能，并使其能够执行各种操作。

📄️ Cohere重新排序器

Cohere 是一家加拿大初创公司，提供自然语言处理模型，帮助公司改善人机交互。

📄️ Cohere RAG

Cohere 是一家加拿大初创公司，提供自然语言处理模型，帮助企业改善人机交互。

📄️ DocArray

DocArray 是一个多模态数据管理的多功能开源工具。它允许您根据需要塑造数据，并提供了使用各种文档索引后端存储和搜索数据的灵活性。此外，它变得更加强大 - 您可以利用 DocArray 文档索引来创建 DocArrayRetriever，并构建出色的 Langchain 应用程序！

📄️ Dria

Dria 是一个公共 RAG 模型中心，供开发者共同贡献和利用共享的嵌入式数据湖。这篇笔记展示了如何使用 Dria API 进行数据检索任务。

📄️ ElasticSearch BM25

Elasticsearch 是一个分布式的、RESTful 的搜索和分析引擎。它提供了一个分布式、多租户能力的全文搜索引擎，具有 HTTP 网络接口和无模式的 JSON 文档。

📄️ Elasticsearch

Elasticsearch 是一个分布式的、基于 REST 的搜索和分析引擎。它提供了一个分布式、多租户能力的全文搜索引擎，具有 HTTP Web 接口和无模式的 JSON 文档。它支持关键词搜索、向量搜索、混合搜索和复杂过滤。

📄️ Embedchain

Embedchain 是一个用于创建数据管道的 RAG 框架。它可以加载、索引、检索和同步所有数据。

📄️ FlashRank 重排器

FlashRank 是一个超轻量级和超快速的 Python 库，可用于为现有的搜索和检索流程添加重新排名功能。它基于最先进的交叉编码器，对所有模型所有者表示感谢。

📄️ Fleet AI Context

Fleet AI Context 是一个包含了最受欢迎且开放的 Python 库及其文档的高质量嵌入数据集。

📄️ 谷歌云盘

本笔记涵盖了如何从谷歌云盘检索文档。

📄️ 谷歌 Vertex AI 搜索

谷歌 Vertex AI 搜索（以前称为 Generative AI App Builder 上的企业搜索）是由 Google Cloud 提供的 Vertex AI 机器学习平台的一部分。

📄️ JaguarDB 矢量数据库

JaguarDB 矢量数据库

📄️ Kay.ai

Kai Data API 是为 RAG 🕵️ 构建的。我们正在筛选世界上最大的数据集，将其作为高质量的嵌入，以便您的 AI 代理可以即时检索上下文。最新模型、快速检索和零基础设施。

📄️ 基于 Kinetica Vectorstore 的检索器

Kinetica 是一个集成了向量相似性搜索支持的数据库。

📄️ kNN

在统计学中，k-最近邻算法 (k-NN) 是一种非参数的监督学习方法，最早由 Evelyn Fix 和 Joseph Hodges 在 1951 年开发，后来由 Thomas Cover 进行了扩展。它被用于分类和回归。

📄️ LLMLingua文件压缩器

LLMLingua利用紧凑、经过良好训练的语言模型（例如GPT2-small，LLaMA-7B）来识别并删除提示中的非必要标记。这种方法使得大型语言模型（LLMs）的推理变得高效，最多可实现20倍的压缩，且性能损失最小。

📄️ 魔戒（Merger Retriever）

检索者之主（LOTR），也被称为MergerRetriever，接受一个检索者列表作为输入，并将它们的getrelevantdocuments()方法的结果合并成一个列表。合并后的结果将是一个与查询相关且已由不同检索者排名的文档列表。

📄️ 金属

金属是一个用于 ML 嵌入的托管服务。

📄️ 大纲

大纲是一个开源的协作知识库平台，旨在为团队信息共享提供支持。

📄️ 松鼠混合搜索

松鼠是一个功能广泛的向量数据库。

📄️ PubMed

PubMed® 由美国国家生物技术信息中心、国家医学图书馆发布，收录了来自 MEDLINE、生命科学期刊和在线图书的超过 3500 万篇生物医学文献引用。引用可能包括指向 PubMed Central 和出版商网站的全文内容的链接。

📄️ Qdrant 稀疏向量

Qdrant 是一个开源的高性能向量搜索引擎/数据库。

📄️ RAGatouille

RAGatouille 让使用 ColBERT 变得非常简单！

📄️ RePhraseQuery

RePhraseQuery 是一个简单的检索器，它在用户输入和检索器传递的查询之间应用 LLM。

📄️ 记忆增强器

记忆增强器是由 SkyDeck AI 公司创建的一项用于 AI 应用的知识增强服务。

📄️ 证券交易委员会备案

证券交易委员会备案是提交给美国证券交易委员会（SEC）的财务报表或其他正式文件。公开公司、某些内部人员和经纪人被要求定期进行SEC备案。投资者和金融专业人士依赖这些备案获取他们评估投资对象公司的信息。

🗃️ 自问式检索器

20 items

📄️ SingleStoreDB

SingleStoreDB 是一个高性能的分布式 SQL 数据库，支持部署在云端和本地。它提供向量存储和向量函数，包括点积和欧几里得距离，从而支持需要文本相似度匹配的人工智能应用程序。

📄️ 支持向量机（SVM）

支持向量机（SVM）是一组用于分类、回归和异常值检测的监督学习方法。

📄️ Tavily 搜索 API

Tavily 的搜索 API 是专门为 AI 代理人（LLMs）构建的搜索引擎，能够以实时、准确和事实为基础的速度提供结果。

📄️ TF-IDF

TF-IDF 意为词项频率乘以逆文档频率。

📄️ NeuralDB

NeuralDB 是由 ThirdAI 开发的一款 CPU 友好且可微调的检索引擎。

📄️ Vespa

Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持向量搜索 (ANN)、词汇搜索以及在结构化数据中进行搜索，所有这些功能都可以在同一个查询中实现。

📄️ Weaviate 混合搜索

Weaviate 是一个开源的向量数据库。

📄️ 维基百科

维基百科是一个多语种的免费在线百科全书，由一群志愿者社区（称为维基人）通过开放协作并使用名为MediaWiki的基于wiki的编辑系统编写和维护。维基百科是有史以来最大且最受欢迎的参考作品。

📄️ You.com

you.com API 是一套旨在帮助开发人员将LLMs的输出与最新、最准确、最相关的信息联系起来的工具套件，这些信息可能没有包含在它们的训练数据集中。

📄️ Zep

Zep 的检索器示例