document_transformers
#
文档转换器是用于转换文档的类。
文档转换器 通常用于在一次运行中转换大量文档。
类层次结构:
BaseDocumentTransformer --> <name> # Examples: DoctranQATransformer, DoctranTextTranslator
主要助手:
Document
类
|
通过提取特定标签并移除不需要的标签来转换HTML内容。 |
|
使用 doctran 从文本文档中提取属性。 |
|
使用 doctran 从文本文档中提取问答。 |
|
使用 doctran 翻译文本文档。 |
|
对文档向量执行K-means聚类。 |
|
通过比较嵌入来过滤掉冗余文档的过滤器。 |
用替换字符串替换特定搜索模式的出现 |
|
|
重新排序长上下文。 |
|
使用markdownify库将HTML文档转换为Markdown格式,并提供可自定义的选项来处理链接、图像、其他标签和标题样式。 |
|
Nuclia 文本转换器。 |
使用OpenAI函数从文档内容中提取元数据标签。 |
函数
|
从BeautifulSoup元素中获取所有可导航的字符串。 |
|
将文档列表转换为带有状态的文档列表。 |
|
创建一个使用OpenAI函数链自动生成元数据的DocumentTransformer |
已弃用的类