网页抓取工具
!!! note "实验性质" 我们仍在努力改进工具,因此未来可能会出现意外行为或更改。
描述
这是一个旨在提取和阅读指定网站内容的工具。它能够通过发出 HTTP 请求并解析接收到的 HTML 内容来处理各种类型的网页。该工具特别适用于网页抓取任务、数据收集或从网站中提取特定信息。
安装
安装 crewai_tools 包
pip install 'crewai[tools]'
示例
from crewai_tools import ScrapeWebsiteTool
# 启用在执行过程中抓取任何找到的网站
tool = ScrapeWebsiteTool()
# 使用网站 URL 初始化工具,以便代理只能抓取指定网站的内容
tool = ScrapeWebsiteTool(website_url='https://www.example.com')
# 从网站提取文本
text = tool.run()
print(text)
参数
website_url
:必填的网站 URL,用于读取文件。这是工具的主要输入,指定应该抓取和阅读哪个网站的内容。