跳到主要内容

网页抓取工具

!!! note "实验性质" 我们仍在努力改进工具,因此未来可能会出现意外行为或更改。

描述

这是一个旨在提取和阅读指定网站内容的工具。它能够通过发出 HTTP 请求并解析接收到的 HTML 内容来处理各种类型的网页。该工具特别适用于网页抓取任务、数据收集或从网站中提取特定信息。

安装

安装 crewai_tools 包

pip install 'crewai[tools]'

示例

from crewai_tools import ScrapeWebsiteTool

# 启用在执行过程中抓取任何找到的网站
tool = ScrapeWebsiteTool()

# 使用网站 URL 初始化工具,以便代理只能抓取指定网站的内容
tool = ScrapeWebsiteTool(website_url='https://www.example.com')

# 从网站提取文本
text = tool.run()
print(text)

参数

  • website_url:必填的网站 URL,用于读取文件。这是工具的主要输入,指定应该抓取和阅读哪个网站的内容。