MarkdownifyTransformer#

class langchain_community.document_transformers.markdownify.MarkdownifyTransformer(strip: str | List[str] | None = None, convert: str | List[str] | None = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any)[source]#

使用markdownify库将HTML文档转换为Markdown格式,并提供可自定义的选项来处理链接、图像、其他标签和标题样式。

Parameters:
  • strip (str | List[str] | None) – 要剥离的标签列表。此选项不能与转换选项一起使用。

  • convert (str | List[str] | None) – 要转换的标签列表。此选项不能与strip选项一起使用。

  • autolinks (bool) – 一个布尔值,指示当a标签的内容与其href匹配时是否应使用“自动链接”样式。默认为True。

  • heading_style (str) – 定义标题应如何转换。可接受的值有 ATX、ATX_CLOSED、SETEXT 和 UNDERLINED(这是 SETEXT 的别名)。默认为 ATX。

  • kwargs (Any) – 传递给 markdownify 的额外选项。

示例

更多配置选项可以在 markdownify 的 GitHub 页面上找到: matthewwithanm/python-markdownify

方法

__init__([strip, convert, autolinks, ...])

atransform_documents(documents, **kwargs)

异步转换文档列表。

transform_documents(documents, **kwargs)

转换文档列表。

__init__(strip: str | List[str] | None = None, convert: str | List[str] | None = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any) None[source]#
Parameters:
  • strip (str | List[str] | None)

  • convert (str | List[str] | None)

  • 自动链接 (布尔型)

  • heading_style (str)

  • kwargs (Any)

Return type:

async atransform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document]#

异步转换文档列表。

Parameters:
  • documents (Sequence[Document]) – 要转换的文档序列。

  • kwargs (Any)

Returns:

一系列转换后的文档。

Return type:

序列[Document]

transform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]#

转换文档列表。

Parameters:
  • documents (Sequence[Document]) – 要转换的文档序列。

  • kwargs (Any)

Returns:

一系列转换后的文档。

Return type:

序列[文档]

使用 MarkdownifyTransformer 的示例