langchain_community.document_loaders.parsers.html.bs4
.BS4HTMLParser¶
- class langchain_community.document_loaders.parsers.html.bs4.BS4HTMLParser(*, features: str = 'lxml', get_text_separator: str = '', **kwargs: Any)[source]¶
使用`Beautiful Soup`解析HTML文件。
初始化一个基于bs4的HTML解析器。
Methods
__init__
(*[, features, get_text_separator])初始化一个基于bs4的HTML解析器。
lazy_parse
(blob)加载HTML文档到文档对象中。
parse
(blob)将blob急切地解析为一个文档或多个文档。
- Parameters
features (str) –
get_text_separator (str) –
kwargs (Any) –
- Return type
None
- __init__(*, features: str = 'lxml', get_text_separator: str = '', **kwargs: Any) None [source]¶
初始化一个基于bs4的HTML解析器。
- Parameters
features (str) –
get_text_separator (str) –
kwargs (Any) –
- Return type
None