Skip to main content

如何加载HTML

超文本标记语言(HTML)是用于在Web浏览器中显示的文档的标准标记语言。

这里介绍了如何将HTML文档加载到LangChain的Document对象中,以便我们可以在下游使用。

解析HTML文件通常需要专门的工具。在这里,我们演示了如何通过UnstructuredBeautifulSoup4进行解析,可以通过pip安装。请前往集成页面查找与其他服务的集成,例如Azure AI Document IntelligenceFireCrawl

使用Unstructured加载HTML

%pip install "unstructured[html]"
from langchain_community.document_loaders import UnstructuredHTMLLoader
file_path = "../../../docs/integrations/document_loaders/example_data/fake-content.html"
loader = UnstructuredHTMLLoader(file_path)
data = loader.load()
print(data)
[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用BeautifulSoup4加载HTML

我们还可以使用BeautifulSoup4使用BSHTMLLoader加载HTML文档。这将将HTML中的文本提取到page_content中,并将页面标题提取到metadatatitle中。

%pip install bs4
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader(file_path)
data = loader.load()
print(data)
[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

Was this page helpful?


You can leave detailed feedback on GitHub.