HTML标题文本分割器#
- class langchain_text_splitters.html.HTMLHeaderTextSplitter(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]#
根据指定的标题拆分HTML文件。
需要 lxml 包。
创建一个新的HTMLHeaderTextSplitter。
- Parameters:
headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组列表,映射到(任意)元数据键。允许的标题值:h1, h2, h3, h4, h5, h6 例如 [(“h1”, “标题 1”), (“h2”, “标题 2”)]。
return_each_element (bool) – 返回每个元素及其相关的头部信息。
方法
__init__
(headers_to_split_on[, ...])创建一个新的HTMLHeaderTextSplitter。
aggregate_elements_to_chunks
(elements)将具有共同元数据的元素组合成块。
split_text
(text)分割HTML文本字符串。
split_text_from_file
(file)分割HTML文件。
split_text_from_url
(url, **kwargs)从网页URL分割HTML。
- __init__(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]#
创建一个新的HTMLHeaderTextSplitter。
- Parameters:
headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组列表,映射到(任意)元数据键。允许的标题值:h1, h2, h3, h4, h5, h6 例如 [(“h1”, “标题 1”), (“h2”, “标题 2”)]。
return_each_element (bool) – 返回每个元素及其相关的头部信息。
- aggregate_elements_to_chunks(elements: List[ElementType]) List[Document] [source]#
将具有共同元数据的元素组合成块。
- Parameters:
元素 (列表[ElementType]) – 带有相关识别信息和元数据的HTML元素内容
- Return type:
列表[文档]
- split_text(text: str) List[Document] [source]#
分割HTML文本字符串。
- Parameters:
文本 (str) – HTML 文本
- Return type:
列表[文档]
使用HTMLHeaderTextSplitter的示例