BS4HTML解析器#
- class langchain_community.document_loaders.parsers.html.bs4.BS4HTMLParser(*, features: str = 'lxml', get_text_separator: str = '', **kwargs: Any)[source]#
使用Beautiful Soup解析HTML文件。
初始化一个基于bs4的HTML解析器。
方法
__init__
(*[, features, get_text_separator])初始化一个基于bs4的HTML解析器。
lazy_parse
(blob)将HTML文档加载到文档对象中。
parse
(blob)急切地将blob解析为一个或多个文档。
- Parameters:
特征 (str)
get_text_separator (str)
kwargs (Any)
- __init__(*, features: str = 'lxml', get_text_separator: str = '', **kwargs: Any) None [source]#
初始化一个基于bs4的HTML解析器。
- Parameters:
特征 (str)
get_text_separator (str)
kwargs (Any)
- Return type:
无