langchain.chains.natbot.crawler.Crawler

class langchain.chains.natbot.crawler.Crawler[source]

一个用于网页的爬虫。

安全提示 :这是一个使用Playwright通过浏览器进行爬取的实现。

此爬虫可用于加载任意网页,包括来自本地文件系统的内容。

控制谁可以提交爬取请求以及爬虫具有什么网络访问权限。

确保将权限范围限制在应用程序所需的最低权限。

有关更多信息,请参阅https://python.langchain.com/docs/security。

Methods

__init__()

click(id)

crawl()

enter()

go_to_page(url)

scroll(direction)

type(id, text)

Return type

None

__init__() None[source]
Return type

None

click(id: Union[str, int]) None[source]
Parameters

id (Union[str, int]) –

Return type

None

crawl() List[str][source]
Return type

List[str]

enter() None[source]
Return type

None

go_to_page(url: str) None[source]
Parameters

url (str) –

Return type

None

scroll(direction: str) None[source]
Parameters

direction (str) –

Return type

None

type(id: Union[str, int], text: str) None[source]
Parameters
  • id (Union[str, int]) –

  • text (str) –

Return type

None