检索器

一个retriever是一个接口，它根据非结构化查询返回文档。它比向量存储更通用。一个retriever不需要能够存储文档，只需要返回（或检索）它们。 Retrievers可以从向量存储中创建，但也足够广泛，包括Wikipedia搜索和Amazon Kendra。

检索器接受一个字符串查询作为输入，并返回一个Documents列表作为输出。

有关如何使用检索器的具体信息，请参阅相关操作指南。

请注意，所有的向量存储都可以转换为检索器。请参考向量存储的集成文档以了解可用的向量存储。本页面列出了通过子类化BaseRetriever实现的自定义检索器。

自带文档

以下检索器允许您索引和搜索自定义文档语料库。

检索器	自托管	云服务	包
AmazonKnowledgeBasesRetriever	❌	✅	langchain_aws
AzureAISearchRetriever	❌	✅	langchain_community
ElasticsearchRetriever	✅	✅	langchain_elasticsearch
MilvusCollectionHybridSearchRetriever	✅	❌	langchain_milvus
VertexAISearchRetriever	❌	✅	langchain_google_community

外部索引

以下检索器将搜索外部索引（例如，由互联网数据或类似数据构建的）。

检索器	来源	包
ArxivRetriever	学术文章在 arxiv.org	langchain_community
TavilySearchAPIRetriever	互联网搜索	langchain_community
WikipediaRetriever	Wikipedia 文章	langchain_community

所有检索器

名称	描述
Activeloop Deep Memory	Activeloop Deep Memory 是一套工具，使您能够优化...
Amazon Kendra	Amazon Kendra 是亚马逊网络服务提供的一种智能搜索服务...
Arcee	Arcee 帮助开发 SLMs——小型、专业化、安全的...
Arxiv	arXiv 是一个开放获取的存档，包含 200 万篇学术文章...
AskNews	AskNews 将任何LLM与最新的全球新闻（或历史新闻...）相结合
Azure AI Search	Azure AI Search（以前称为 Azure Cognitive Search）是一个微...
Bedrock (Knowledge Bases)	本指南将帮助您开始使用AWS知识库...
BM25	BM25（维基百科）也被称为Okapi BM25，是一种排名函数...
Box	这将帮助您开始使用Box检索器。详情请见...
BREEBS (Open Knowledge)	BREEBS 是一个开放的协作知识平台。
Chaindesk	Chaindesk 平台可以从任何地方获取数据（数据源：文本、PDF、...
ChatGPT plugin	OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插件...
Cohere reranker	Cohere 是一家加拿大初创公司，提供自然语言处理...
Cohere RAG	Cohere 是一家加拿大初创公司，提供自然语言处理...
Dappier	Dappier 将任何LLM或您的代理AI连接到实时、权利清晰的...
DocArray	DocArray 是一个多功能、开源的工具，用于管理您的多模态数据...
Dria	Dria 是一个公共 RAG 模型的中心，供开发者贡献...
ElasticSearch BM25	Elasticsearch 是一个分布式的、RESTful 的搜索和分析引擎。...
Elasticsearch	Elasticsearch 是一个分布式的、RESTful 风格的搜索和分析引擎。...
Embedchain	Embedchain 是一个用于创建数据管道的 RAG 框架。它加载、索引...
FlashRank reranker	FlashRank 是一个超轻量级且超快的 Python 库，用于添加重新排序...
Fleet AI Context	Fleet AI Context 是一个包含前1%高质量嵌入的数据集...
Google Drive	本笔记本介绍了如何从Google Drive检索文档。
Google Vertex AI Search	Google Vertex AI 搜索（以前称为企业搜索...
IBM watsonx.ai	WatsonxRerank 是 IBM watsonx.ai 基础模型的封装器。
JaguarDB 向量数据库	[JaguarDB 向量数据库](http://www.jaguardb.com/windex.html
Kay.ai	为RAG构建的Kai数据API 🕵️ 我们正在策划世界上最大的数据...
Kinetica Vectorstore based Retriever	Kinetica 是一个集成了向量相似性支持的数据库...
kNN	在统计学中，k-最近邻算法（k-NN）是一种非参数...
LinkupSearchRetriever	Linkup 提供了一个 API，用于将 LLMs 连接到网络和 Linkup Prem...
LLMLingua 文档压缩器	LLMLingua 利用一个紧凑且训练有素的语言模型（例如，GPT2...
LOTR (Merger Retriever)	检索者之王（LOTR），也称为MergerRetriever，负责...
Metal	Metal 是一个用于机器学习嵌入的托管服务。
Milvus Hybrid Search	Milvus 是一个开源的向量数据库，旨在支持嵌入相似性...
NanoPQ (Product Quantization)	产品量化算法（k-NN）简而言之是一种量化算法...
needle	针检索器
Outline	Outline 是一个开源的协作知识库平台，设计用于...
Pinecone Hybrid Search	Pinecone 是一个具有广泛功能的向量数据库。
PubMed	PubMed® 由美国国家生物技术信息中心提供，国家...
Qdrant Sparse Vector	Qdrant 是一个开源的高性能向量搜索引擎/数据库...
RAGatouille	RAGatouille 使得使用 ColBERT 变得非常简单！
RePhraseQuery	RePhraseQuery 是一个简单的检索器，它在用户查询和检索系统之间应用了一个LLM...
Rememberizer	Rememberizer 是一个为AI应用程序提供的知识增强服务...
SEC filing	SEC filing 是提交给美国证券交易委员会的财务报表或其他正式文件...
自查询检索器
SingleStoreDB	SingleStoreDB 是一个高性能的分布式 SQL 数据库，支持...
SVM	支持向量机（SVMs）是一组监督学习方法...
TavilySearchAPI	Tavily的搜索API是一个专门为AI代理构建的搜索引擎...
TF-IDF	TF-IDF 表示词频乘以逆文档频率。
NeuralDB	NeuralDB 是一个对CPU友好且可微调的检索引擎...
Vespa	Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持...
Wikipedia	概述
You.com	you.com API 是一套旨在帮助开发者基础的工具...
Zep Cloud	Zep Cloud 的检索示例
Zep Open Source	Zep 的检索器示例
Zilliz Cloud Pipeline	Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的...

自带文档​

外部索引​

所有检索器​

这个页面有帮助吗？

自带文档

外部索引

所有检索器