Skip to main content
Open on GitHub

Beautiful Soup

Beautiful Soup 是一个用于解析HTML和XML文档的Python包(包括处理格式不正确的标记,即未闭合的标签,因此以标签汤命名)。它为解析的页面创建一个解析树,可用于从HTML中提取数据,[3] 这对于网络抓取非常有用。

安装与设置

pip install beautifulsoup4

文档转换器

查看一个使用示例

from langchain_community.document_loaders import BeautifulSoupTransformer

这个页面有帮助吗?