Source code for langchain_community.document_loaders.html

from typing import List

from langchain_community.document_loaders.unstructured import UnstructuredFileLoader


[docs]class UnstructuredHTMLLoader(UnstructuredFileLoader): """使用`Unstructured`加载`HTML`文件。 您可以在两种模式中的一种中运行加载程序:"single"和"elements"。 如果使用"single"模式,则文档将作为单个`langchain`文档对象返回。 如果使用"elements"模式,`unstructured`库将文档拆分为诸如Title和NarrativeText之类的元素。 您可以在模式之后传递额外的`unstructured`参数,以应用不同的`unstructured`设置。 示例 -------- from langchain_community.document_loaders import UnstructuredHTMLLoader loader = UnstructuredHTMLLoader( "example.html", mode="elements", strategy="fast", ) docs = loader.load() 参考资料 ---------- https://unstructured-io.github.io/unstructured/bricks.html#partition-html""" def _get_elements(self) -> List: from unstructured.partition.html import partition_html return partition_html(filename=self.file_path, **self.unstructured_kwargs)