跳到主要内容

SeleniumScrapingTool

!!! note "实验性质" 该工具目前正在开发中。在我们完善其功能的过程中,用户可能会遇到意料之外的行为。您的反馈对我们改进至关重要。

描述

SeleniumScrapingTool 专为高效的网页抓取任务而设计。它允许通过使用 CSS 选择器来精确提取网页内容的特定元素。其设计满足了各种抓取需求,灵活地适用于任何提供的网站 URL。

安装

要开始使用 SeleniumScrapingTool,请使用 pip 安装 crewai_tools 包:

pip install 'crewai[tools]'

使用示例

以下是一些 SeleniumScrapingTool 可以使用的场景示例:

from crewai_tools import SeleniumScrapingTool

# 示例 1:初始化工具,无需任何参数即可抓取当前导航到的页面
tool = SeleniumScrapingTool()

# 示例 2:抓取给定 URL 的整个网页
tool = SeleniumScrapingTool(website_url='https://example.com')

# 示例 3:从网页中定位并抓取特定的 CSS 元素
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content')

# 示例 4:使用附加参数进行抓取,以获得定制化的体验
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content', cookie={'name': 'user', 'value': 'John Doe'}, wait_time=10)

参数

以下参数可用于定制 SeleniumScrapingTool 的抓取过程:

  • website_url必填。指定要从中抓取内容的网站 URL。
  • css_element必填。要在网站上定位的特定元素的 CSS 选择器。这使得可以专注地抓取网页的特定部分。
  • cookie可选。包含 cookie 信息的字典。对于模拟已登录会话非常有用,从而提供对可能仅限于未登录用户的内容的访问权限。
  • wait_time可选。指定在抓取内容之前的延迟时间(以秒为单位)。这种延迟确保网站和任何动态内容完全加载,以确保成功的抓取。

!!! attention 由于 SeleniumScrapingTool 正在积极开发中,参数和功能可能会随时间演变。鼓励用户保持工具更新,并报告任何问题或改进建议。