Skip to main content
Open In ColabOpen on GitHub

如何加载HTML

超文本标记语言或HTML是设计用于在网页浏览器中显示的文档的标准标记语言。

这涵盖了如何将HTML文档加载到LangChain Document对象中,以便我们在下游使用。

解析HTML文件通常需要专门的工具。这里我们演示通过UnstructuredBeautifulSoup4进行解析,这些工具可以通过pip安装。前往集成页面以查找与其他服务的集成,例如Azure AI Document IntelligenceFireCrawl

加载非结构化HTML

%pip install unstructured
from langchain_community.document_loaders import UnstructuredHTMLLoader

file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

print(data)
[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用BeautifulSoup4加载HTML

我们也可以使用BeautifulSoup4通过BSHTMLLoader加载HTML文档。这将从HTML中提取文本到page_content,并将页面标题作为title提取到metadata中。

%pip install bs4
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader(file_path)
data = loader.load()

print(data)
API Reference:BSHTMLLoader
[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

这个页面有帮助吗?