HTML标题文本分割器#

class langchain_text_splitters.html.HTMLHeaderTextSplitter(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]#

根据指定的标题拆分HTML文件。

需要 lxml 包。

创建一个新的HTMLHeaderTextSplitter。

Parameters:
  • headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组列表,映射到(任意)元数据键。允许的标题值:h1, h2, h3, h4, h5, h6 例如 [(“h1”, “标题 1”), (“h2”, “标题 2”)]。

  • return_each_element (bool) – 返回每个元素及其相关的头部信息。

方法

__init__(headers_to_split_on[, ...])

创建一个新的HTMLHeaderTextSplitter。

aggregate_elements_to_chunks(elements)

将具有共同元数据的元素组合成块。

split_text(text)

分割HTML文本字符串。

split_text_from_file(file)

分割HTML文件。

split_text_from_url(url, **kwargs)

从网页URL分割HTML。

__init__(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]#

创建一个新的HTMLHeaderTextSplitter。

Parameters:
  • headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组列表,映射到(任意)元数据键。允许的标题值:h1, h2, h3, h4, h5, h6 例如 [(“h1”, “标题 1”), (“h2”, “标题 2”)]。

  • return_each_element (bool) – 返回每个元素及其相关的头部信息。

aggregate_elements_to_chunks(elements: List[ElementType]) List[Document][source]#

将具有共同元数据的元素组合成块。

Parameters:

元素 (列表[ElementType]) – 带有相关识别信息和元数据的HTML元素内容

Return type:

列表[文档]

split_text(text: str) List[Document][source]#

分割HTML文本字符串。

Parameters:

文本 (str) – HTML 文本

Return type:

列表[文档]

split_text_from_file(file: Any) List[Document][source]#

分割HTML文件。

Parameters:

文件 (任意) – HTML 文件

Return type:

列表[文档]

split_text_from_url(url: str, **kwargs: Any) List[Document][source]#

从网页URL中拆分HTML。

Parameters:
  • url (str) – 网页URL

  • **kwargs (Any) – 任意附加的关键字参数。这些通常传递给获取URL内容的请求。

Return type:

列表[文档]

使用HTMLHeaderTextSplitter的示例