📄️ AI21SemanticTextSplitter
这个示例演示了如何在 LangChain 中使用 AI21SemanticTextSplitter。
📄️ Beautiful Soup
Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 包(包括具有格式不正确的标记的文档,即非闭合标记,因此被命名为标记汤)。它为解析页面创建了一个解析树,可用于从 HTML 中提取数据[3],这对于网页抓取非常有用。
📄️ 交叉编码器重排序器
本文介绍了如何在检索器中使用自己的交叉编码器实现重排序,该交叉编码器来自Hugging Face交叉编码器模型或实现交叉编码器功能的Hugging Face模型(例如:BAAI/bge-reranker-base)。“SagemakerEndpointCrossEncoder”使您能够在Sagemaker上使用这些加载的HuggingFace模型。
📄️ Doctran: 提取属性
我们可以使用 Doctran 库提取文档的有用特征,该库利用 OpenAI 的函数调用功能来提取特定的元数据。
📄️ Doctran:审问文档
在向量存储知识库中使用的文档通常以叙述或对话形式存储。然而,大多数用户查询以问题形式提出。如果我们在将文档向量化之前将文档转换为问答格式,我们可以增加检索相关文档的可能性,减少检索无关文档的可能性。
📄️ Doctran: 语言翻译
通过嵌入式比较文档的好处在于可以跨多种语言进行工作。"Harrison says hello" 和 "Harrison dice hola" 将在向量空间中占据相似的位置,因为它们在语义上具有相同的含义。
📄️ 谷歌云 Vertex AI 重新排序器
Vertex Search Ranking API是Vertex AI Agent Builder中独立的 API 之一。它接收一个文档列表,并根据文档与查询的相关性重新排列这些文档。与仅查看文档和查询的语义相似性的嵌入相比,排名 API 可以为文档对给定查询的回答程度提供精确分数。在检索到初始候选文档后,排名 API 可用于提高搜索结果的质量。
📄️ Google Cloud Document AI
Google Cloud 的 Document AI 是一个文档理解平台,可以将文档中的非结构化数据转化为结构化数据,使其更易于理解、分析和使用。
📄️ 谷歌翻译
谷歌翻译 是由谷歌开发的多语言神经机器翻译服务,可将文本、文件和网站从一种语言翻译成另一种语言。
📄️ HTML转文本
html2text 是一个Python包,可以将HTML页面转换为干净、易读的普通ASCII文本。
📄️ Jina Reranker
本笔记展示了如何使用 Jina Reranker 进行文档压缩和检索。
📄️ Markdownify
markdownify 是一个 Python 包,可以将 HTML 文档转换为 Markdown 格式,并提供可定制的选项来处理标签(链接、图片等)、标题样式等。
📄️ Nuclia
Nuclia 可自动索引来自任何内部和外部来源的非结构化数据,提供优化的搜索结果和生成式答案。它可以处理视频和音频转录、图像内容提取和文档解析。
📄️ OpenAI 元数据标记器
通常,将摄入的文档标记为结构化元数据(如文档标题、语气或长度)往往很有用,以便以后进行更有针对性的相似性搜索。但是,对于大量文档,手动执行此标记过程可能会很繁琐。
📄️ OpenVINO Reranker
OpenVINO™ 是一个用于优化和部署 AI 推断的开源工具包。OpenVINO™ Runtime 支持多种硬件设备,包括 x86 和 ARM CPU,以及 Intel GPU。它可以帮助提升计算机视觉、自动语音识别、自然语言处理和其他常见任务中的深度学习性能。
📄️ VoyageAI 重新排序
Voyage AI 提供尖端的嵌入/向量化模型。