langchain_community.document_transformers.markdownify
.MarkdownifyTransformer¶
- class langchain_community.document_transformers.markdownify.MarkdownifyTransformer(strip: Optional[Union[str, List[str]]] = None, convert: Optional[Union[str, List[str]]] = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any)[source]¶
将HTML文档转换为Markdown格式,可使用markdownify库处理链接、图片、其他标签和标题样式的自定义选项。
- 参数:
strip: 要剥离的标签列表。此选项不能与convert选项一起使用。 convert: 要转换的标签列表。此选项不能与strip选项一起使用。 autolinks: 一个布尔值,指示是否在a标签的内容匹配其href时使用“自动链接”样式。默认为True。 heading_style: 定义标题应如何转换。接受的值为ATX、ATX_CLOSED、SETEXT和UNDERLINED(是SETEXT的别名)。默认为ATX。 **kwargs: 传递给markdownify的其他选项。
- 示例:
更多配置选项可以在markdownify的GitHub页面找到: https://github.com/matthewwithanm/python-markdownify
Methods
__init__
([strip, convert, autolinks, ...])atransform_documents
(documents, **kwargs)异步转换文档列表。
transform_documents
(documents, **kwargs)转换文档列表。
- Parameters
strip (Optional[Union[str, List[str]]]) –
convert (Optional[Union[str, List[str]]]) –
autolinks (bool) –
heading_style (str) –
kwargs (Any) –
- Return type
None
- __init__(strip: Optional[Union[str, List[str]]] = None, convert: Optional[Union[str, List[str]]] = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any) None [source]¶
- Parameters
strip (Optional[Union[str, List[str]]]) –
convert (Optional[Union[str, List[str]]]) –
autolinks (bool) –
heading_style (str) –
kwargs (Any) –
- Return type
None