📄️ AI21语义文本分割器
这个示例介绍了如何在LangChain中使用AI21SemanticTextSplitter。
📄️ Beautiful Soup
Beautiful Soup 是一个用于解析的 Python 包
📄️ 交叉编码器重排器
本笔记本展示了如何在检索器中实现重新排序器,使用来自Hugging Face的交叉编码器模型或实现交叉编码器功能的Hugging Face模型(例如:BAAI/bge-reranker-base)。SagemakerEndpointCrossEncoder使您能够使用这些加载在Sagemaker上的HuggingFace模型。
📄️ DashScope 重新排序器
本笔记本展示了如何使用DashScope Reranker进行文档压缩和检索。DashScope是阿里云(Aliyun)的生成式AI服务。
📄️ Doctran: 提取属性
我们可以使用Doctran库提取文档的有用特征,该库利用OpenAI的函数调用功能来提取特定的元数据。
📄️ Doctran: 审问文档
向量存储知识库中使用的文档通常以叙述或对话格式存储。然而,大多数用户查询是以问题格式进行的。如果我们在向量化之前将文档转换为问答格式,我们可以增加检索相关文档的可能性,并减少检索不相关文档的可能性。
📄️ Doctran: 语言翻译
通过嵌入比较文档的好处是可以跨多种语言工作。"Harrison says hello" 和 "Harrison dice hola" 将在向量空间中占据相似的位置,因为它们在语义上具有相同的含义。
📄️ Google Cloud Vertex AI 重新排序器
Vertex Search Ranking API 是 Vertex AI Agent Builder 中的一个独立 API。它接收一个文档列表,并根据文档与查询的相关性对这些文档进行重新排序。与仅关注文档和查询语义相似性的嵌入相比,排名 API 可以为您提供文档回答给定查询的精确分数。排名 API 可用于在检索到一组初始候选文档后提高搜索结果的质量。
📄️ Google Cloud 文档 AI
Document AI 是 Google Cloud 提供的一个文档理解平台,用于将文档中的非结构化数据转换为结构化数据,使其更易于理解、分析和使用。
📄️ Google 翻译
Google翻译是由Google开发的多语言神经机器翻译服务,用于将文本、文档和网站从一种语言翻译成另一种语言。
📄️ HTML 转文本
html2text 是一个 Python 包,可以将 HTML 页面转换为干净、易读的纯 ASCII 文本。
📄️ 无限重排器
Infinity 是一个高吞吐量、低延迟的 REST API,用于提供文本嵌入、重新排序模型和剪辑。
📄️ Jina 重新排序器
本笔记本展示了如何使用Jina Reranker进行文档压缩和检索。
📄️ Markdownify
markdownify 是一个 Python 包,可以将 HTML 文档转换为 Markdown 格式,并提供可自定义的选项来处理标签(链接、图片等)、标题样式等。
📄️ Nuclia
Nuclia 自动从任何内部和外部来源索引您的非结构化数据,提供优化的搜索结果和生成式答案。它可以处理视频和音频转录、图像内容提取和文档解析。
📄️ OpenAI 元数据标记器
通常,为摄入的文档添加结构化元数据(如文档的标题、语气或长度)可能非常有用,以便以后进行更有针对性的相似性搜索。然而,对于大量文档,手动执行此标记过程可能会很繁琐。
📄️ OpenVINO 重新排序器
OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包。OpenVINO™ 运行时支持包括 x86 和 ARM CPU 以及 Intel GPU 在内的各种硬件设备。它可以帮助提升计算机视觉、自动语音识别、自然语言处理和其他常见任务中的深度学习性能。
📄️ RankLLM 重新排序器
RankLLM 提供了一套列表式重排序器,尽管重点是针对该任务进行微调的开源LLMs - RankVicuna 和 RankZephyr 是其中的两个。
📄️ 火山引擎重排序器
本笔记本展示了如何使用Volcengine Reranker进行文档压缩和检索。Volcengine是由TikTok的母公司字节跳动开发的云服务平台。
📄️ VoyageAI 重新排序器
Voyage AI 提供前沿的嵌入/向量化模型。