Beautiful Soup
Beautiful Soup 是一个用于解析HTML和XML文档的Python包(包括处理格式不正确的标记,即未闭合的标签,因此以标签汤命名)。它为解析的页面创建一个解析树,可用于从HTML中提取数据,[3] 这对于网络抓取非常有用。
安装与设置
pip install beautifulsoup4
文档转换器
查看一个使用示例。
from langchain_community.document_loaders import BeautifulSoupTransformer