langchain_community.document_transformers.markdownify.MarkdownifyTransformer

class langchain_community.document_transformers.markdownify.MarkdownifyTransformer(strip: Optional[Union[str, List[str]]] = None, convert: Optional[Union[str, List[str]]] = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any)[source]

将HTML文档转换为Markdown格式,可使用markdownify库处理链接、图片、其他标签和标题样式的自定义选项。

参数:

strip: 要剥离的标签列表。此选项不能与convert选项一起使用。 convert: 要转换的标签列表。此选项不能与strip选项一起使用。 autolinks: 一个布尔值,指示是否在a标签的内容匹配其href时使用“自动链接”样式。默认为True。 heading_style: 定义标题应如何转换。接受的值为ATX、ATX_CLOSED、SETEXT和UNDERLINED(是SETEXT的别名)。默认为ATX。 **kwargs: 传递给markdownify的其他选项。

示例:

更多配置选项可以在markdownify的GitHub页面找到: https://github.com/matthewwithanm/python-markdownify

Methods

__init__([strip, convert, autolinks, ...])

atransform_documents(documents, **kwargs)

异步转换文档列表。

transform_documents(documents, **kwargs)

转换文档列表。

Parameters
  • strip (Optional[Union[str, List[str]]]) –

  • convert (Optional[Union[str, List[str]]]) –

  • autolinks (bool) –

  • heading_style (str) –

  • kwargs (Any) –

Return type

None

__init__(strip: Optional[Union[str, List[str]]] = None, convert: Optional[Union[str, List[str]]] = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any) None[source]
Parameters
  • strip (Optional[Union[str, List[str]]]) –

  • convert (Optional[Union[str, List[str]]]) –

  • autolinks (bool) –

  • heading_style (str) –

  • kwargs (Any) –

Return type

None

async atransform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]

异步转换文档列表。

参数:

documents:要转换的文档序列。

返回:

转换后的文档列表。

Parameters
  • documents (Sequence[Document]) –

  • kwargs (Any) –

Return type

Sequence[Document]

transform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]

转换文档列表。

参数:

documents:要转换的文档序列。

返回:

转换后的文档列表。

Parameters
  • documents (Sequence[Document]) –

  • kwargs (Any) –

Return type

Sequence[Document]