document_transformers#

文档转换器是用于转换文档的类。

文档转换器 通常用于在一次运行中转换大量文档。

类层次结构:

BaseDocumentTransformer --> <name>  # Examples: DoctranQATransformer, DoctranTextTranslator

主要助手:

Document

document_transformers.beautiful_soup_transformer.BeautifulSoupTransformer()

通过提取特定标签并移除不需要的标签来转换HTML内容。

document_transformers.doctran_text_extract.DoctranPropertyExtractor(...)

使用 doctran 从文本文档中提取属性。

document_transformers.doctran_text_qa.DoctranQATransformer([...])

使用 doctran 从文本文档中提取问答。

document_transformers.doctran_text_translate.DoctranTextTranslator([...])

使用 doctran 翻译文本文档。

document_transformers.embeddings_redundant_filter.EmbeddingsClusteringFilter

对文档向量执行K-means聚类。

document_transformers.embeddings_redundant_filter.EmbeddingsRedundantFilter

通过比较嵌入来过滤掉冗余文档的过滤器。

document_transformers.html2text.Html2TextTransformer([...])

用替换字符串替换特定搜索模式的出现

document_transformers.long_context_reorder.LongContextReorder

重新排序长上下文。

document_transformers.markdownify.MarkdownifyTransformer([...])

使用markdownify库将HTML文档转换为Markdown格式,并提供可自定义的选项来处理链接、图像、其他标签和标题样式。

document_transformers.nuclia_text_transform.NucliaTextTransformer(nua)

Nuclia 文本转换器。

document_transformers.openai_functions.OpenAIMetadataTagger

使用OpenAI函数从文档内容中提取元数据标签。

函数

document_transformers.beautiful_soup_transformer.get_navigable_strings(...)

从BeautifulSoup元素中获取所有可导航的字符串。

document_transformers.embeddings_redundant_filter.get_stateful_documents(...)

将文档列表转换为带有状态的文档列表。

document_transformers.openai_functions.create_metadata_tagger(...)

创建一个使用OpenAI函数链自动生成元数据的DocumentTransformer

已弃用的类