Source code for langchain_community.document_loaders.html
from typing import List
from langchain_community.document_loaders.unstructured import UnstructuredFileLoader
[docs]class UnstructuredHTMLLoader(UnstructuredFileLoader):
"""使用`Unstructured`加载`HTML`文件。
您可以在两种模式中的一种中运行加载程序:"single"和"elements"。
如果使用"single"模式,则文档将作为单个`langchain`文档对象返回。
如果使用"elements"模式,`unstructured`库将文档拆分为诸如Title和NarrativeText之类的元素。
您可以在模式之后传递额外的`unstructured`参数,以应用不同的`unstructured`设置。
示例
--------
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader(
"example.html", mode="elements", strategy="fast",
)
docs = loader.load()
参考资料
----------
https://unstructured-io.github.io/unstructured/bricks.html#partition-html"""
def _get_elements(self) -> List:
from unstructured.partition.html import partition_html
return partition_html(filename=self.file_path, **self.unstructured_kwargs)