langchain_community.document_transformers.html2text.Html2TextTransformer

class langchain_community.document_transformers.html2text.Html2TextTransformer(ignore_links: bool = True, ignore_images: bool = True)[source]

用替换字符串替换特定搜索模式的出现

参数:

ignore_links:是否应忽略链接;默认为True。 ignore_images:是否应忽略图像;默认为True。

示例:

Methods

__init__([ignore_links, ignore_images])

atransform_documents(documents, **kwargs)

异步转换文档列表。

transform_documents(documents, **kwargs)

转换文档列表。

Parameters
  • ignore_links (bool) –

  • ignore_images (bool) –

Return type

None

__init__(ignore_links: bool = True, ignore_images: bool = True) None[source]
Parameters
  • ignore_links (bool) –

  • ignore_images (bool) –

Return type

None

async atransform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]

异步转换文档列表。

参数:

documents:要转换的文档序列。

返回:

转换后的文档列表。

Parameters
  • documents (Sequence[Document]) –

  • kwargs (Any) –

Return type

Sequence[Document]

transform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]

转换文档列表。

参数:

documents:要转换的文档序列。

返回:

转换后的文档列表。

Parameters
  • documents (Sequence[Document]) –

  • kwargs (Any) –

Return type

Sequence[Document]

Examples using Html2TextTransformer