检索器
一个retriever是一个接口,它根据非结构化查询返回文档。 它比向量存储更通用。 一个retriever不需要能够存储文档,只需要返回(或检索)它们。 Retrievers可以从向量存储中创建,但也足够广泛,包括Wikipedia搜索和Amazon Kendra。
检索器接受一个字符串查询作为输入,并返回一个Documents列表作为输出。
有关如何使用检索器的具体信息,请参阅相关操作指南。
请注意,所有的向量存储都可以转换为检索器。 请参考向量存储的集成文档以了解可用的向量存储。 本页面列出了通过子类化BaseRetriever实现的自定义检索器。
自带文档
以下检索器允许您索引和搜索自定义文档语料库。
外部索引
以下检索器将搜索外部索引(例如,由互联网数据或类似数据构建的)。
检索器 | 来源 | 包 |
---|---|---|
ArxivRetriever | 学术文章在 arxiv.org | langchain_community |
TavilySearchAPIRetriever | 互联网搜索 | langchain_community |
WikipediaRetriever | Wikipedia 文章 | langchain_community |
所有检索器
名称 | 描述 |
---|---|
Activeloop Deep Memory | Activeloop Deep Memory 是一套工具,使您能够优化... |
Amazon Kendra | Amazon Kendra 是亚马逊网络服务提供的一种智能搜索服务... |
Arcee | Arcee 帮助开发 SLMs——小型、专业化、安全的... |
Arxiv | arXiv 是一个开放获取的存档,包含 200 万篇学术文章... |
AskNews | AskNews 将任何LLM与最新的全球新闻(或历史新闻...)相结合 |
Azure AI Search | Azure AI Search(以前称为 Azure Cognitive Search)是一个微... |
Bedrock (Knowledge Bases) | 本指南将帮助您开始使用AWS知识库... |
BM25 | BM25(维基百科)也被称为Okapi BM25,是一种排名函数... |
Box | 这将帮助您开始使用Box检索器。详情请见... |
BREEBS (Open Knowledge) | BREEBS 是一个开放的协作知识平台。 |
Chaindesk | Chaindesk 平台可以从任何地方获取数据(数据源:文本、PDF、... |
ChatGPT plugin | OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插件... |
Cohere reranker | Cohere 是一家加拿大初创公司,提供自然语言处理... |
Cohere RAG | Cohere 是一家加拿大初创公司,提供自然语言处理... |
Dappier | Dappier 将任何LLM或您的代理AI连接到实时、权利清晰的... |
DocArray | DocArray 是一个多功能、开源的工具,用于管理您的多模态数据... |
Dria | Dria 是一个公共 RAG 模型的中心,供开发者贡献... |
ElasticSearch BM25 | Elasticsearch 是一个分布式的、RESTful 的搜索和分析引擎。... |
Elasticsearch | Elasticsearch 是一个分布式的、RESTful 风格的搜索和分析引擎。... |
Embedchain | Embedchain 是一个用于创建数据管道的 RAG 框架。它加载、索引... |
FlashRank reranker | FlashRank 是一个超轻量级且超快的 Python 库,用于添加重新排序... |
Fleet AI Context | Fleet AI Context 是一个包含前1%高质量嵌入的数据集... |
Google Drive | 本笔记本介绍了如何从Google Drive检索文档。 |
Google Vertex AI Search | Google Vertex AI 搜索(以前称为企业搜索... |
IBM watsonx.ai | WatsonxRerank 是 IBM watsonx.ai 基础模型的封装器。 |
JaguarDB 向量数据库 | [JaguarDB 向量数据库](http://www.jaguardb.com/windex.html |
Kay.ai | 为RAG构建的Kai数据API 🕵️ 我们正在策划世界上最大的数据... |
Kinetica Vectorstore based Retriever | Kinetica 是一个集成了向量相似性支持的数据库... |
kNN | 在统计学中,k-最近邻算法(k-NN)是一种非参数... |
LinkupSearchRetriever | Linkup 提供了一个 API,用于将 LLMs 连接到网络和 Linkup Prem... |
LLMLingua 文档压缩器 | LLMLingua 利用一个紧凑且训练有素的语言模型(例如,GPT2... |
LOTR (Merger Retriever) | 检索者之王(LOTR),也称为MergerRetriever,负责... |
Metal | Metal 是一个用于机器学习嵌入的托管服务。 |
Milvus Hybrid Search | Milvus 是一个开源的向量数据库,旨在支持嵌入相似性... |
NanoPQ (Product Quantization) | 产品量化算法(k-NN)简而言之是一种量化算法... |
needle | 针检索器 |
Outline | Outline 是一个开源的协作知识库平台,设计用于... |
Pinecone Hybrid Search | Pinecone 是一个具有广泛功能的向量数据库。 |
PubMed | PubMed® 由美国国家生物技术信息中心提供,国家... |
Qdrant Sparse Vector | Qdrant 是一个开源的高性能向量搜索引擎/数据库... |
RAGatouille | RAGatouille 使得使用 ColBERT 变得非常简单! |
RePhraseQuery | RePhraseQuery 是一个简单的检索器,它在用户查询和检索系统之间应用了一个LLM... |
Rememberizer | Rememberizer 是一个为AI应用程序提供的知识增强服务... |
SEC filing | SEC filing 是提交给美国证券交易委员会的财务报表或其他正式文件... |
自查询检索器 | |
SingleStoreDB | SingleStoreDB 是一个高性能的分布式 SQL 数据库,支持... |
SVM | 支持向量机(SVMs)是一组监督学习方法... |
TavilySearchAPI | Tavily的搜索API是一个专门为AI代理构建的搜索引擎... |
TF-IDF | TF-IDF 表示词频乘以逆文档频率。 |
**NeuralDB** | NeuralDB 是一个对CPU友好且可微调的检索引擎... |
Vespa | Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持... |
Wikipedia | 概述 |
You.com | you.com API 是一套旨在帮助开发者基础的工具... |
Zep Cloud | Zep Cloud 的检索示例 |
Zep Open Source | Zep 的检索器示例 |
Zilliz Cloud Pipeline | Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的... |