langchain_community.document_loaders.docusaurus.DocusaurusLoader

class langchain_community.document_loaders.docusaurus.DocusaurusLoader(url: str, custom_html_tags: Optional[List[str]] = None, **kwargs: Any)[source]

从Docusaurus文档加载。

它利用SitemapLoader循环遍历Docusaurus文档网站生成的页面,并通过查找特定的HTML标签提取内容。默认情况下,解析器会搜索Docusaurus页面的主要内容,通常是<article>。您还可以通过将它们提供为列表来定义自己的自定义HTML标签,例如:[“div”, “.main”, “a”]。

初始化DocusaurusLoader

参数:

url: Docusaurus网站的基本URL。 custom_html_tags: 可选的自定义HTML标签,用于从页面中提取内容。 kwargs: 用于扩展基础SitemapLoader的其他参数,例如:

filter_urls, blocksize, meta_function, is_local, continue_on_failure

Attributes

web_path

Methods

__init__(url[, custom_html_tags])

初始化DocusaurusLoader

alazy_load()

一个用于文档的惰性加载器。

aload()

从web_path中的URL异步加载文本到Documents中。

fetch_all(urls)

以限制速率并发获取所有URL。

lazy_load()

加载站点地图。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

parse_sitemap(soup)

解析站点地图xml并加载到字典列表中。

scrape([parser])

从网页中抓取数据并以BeautifulSoup格式返回。

scrape_all(urls[, parser])

获取所有的URL,然后返回所有结果的网页源代码。

Parameters
  • url (str) –

  • custom_html_tags (Optional[List[str]]) –

  • kwargs (Any) –

__init__(url: str, custom_html_tags: Optional[List[str]] = None, **kwargs: Any)[source]

初始化DocusaurusLoader

参数:

url: Docusaurus网站的基本URL。 custom_html_tags: 可选的自定义HTML标签,用于从页面中提取内容。 kwargs: 用于扩展基础SitemapLoader的其他参数,例如:

filter_urls, blocksize, meta_function, is_local, continue_on_failure

Parameters
  • url (str) –

  • custom_html_tags (Optional[List[str]]) –

  • kwargs (Any) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

aload() List[Document]

从web_path中的URL异步加载文本到Documents中。

Return type

List[Document]

async fetch_all(urls: List[str]) Any

以限制速率并发获取所有URL。

Parameters

urls (List[str]) –

Return type

Any

lazy_load() Iterator[Document]

加载站点地图。

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

parse_sitemap(soup: Any) List[dict]

解析站点地图xml并加载到字典列表中。

参数:

soup:BeautifulSoup对象。

返回:

字典列表。

Parameters

soup (Any) –

Return type

List[dict]

scrape(parser: Optional[str] = None) Any

从网页中抓取数据并以BeautifulSoup格式返回。

Parameters

parser (Optional[str]) –

Return type

Any

scrape_all(urls: List[str], parser: Optional[str] = None) List[Any]

获取所有的URL,然后返回所有结果的网页源代码。

Parameters
  • urls (List[str]) –

  • parser (Optional[str]) –

Return type

List[Any]

Examples using DocusaurusLoader