`langchain_community.document_loaders.docusaurus`.DocusaurusLoader¶

class langchain_community.document_loaders.docusaurus.DocusaurusLoader(url: str, custom_html_tags: Optional[List[str]] = None, **kwargs: Any)[source]¶

从Docusaurus文档加载。

它利用SitemapLoader循环遍历Docusaurus文档网站生成的页面，并通过查找特定的HTML标签提取内容。默认情况下，解析器会搜索Docusaurus页面的主要内容，通常是<article>。您还可以通过将它们提供为列表来定义自己的自定义HTML标签，例如：[“div”, “.main”, “a”]。

初始化DocusaurusLoader

参数:: url: Docusaurus网站的基本URL。 custom_html_tags: 可选的自定义HTML标签，用于从页面中提取内容。 kwargs: 用于扩展基础SitemapLoader的其他参数，例如:

filter_urls, blocksize, meta_function, is_local, continue_on_failure

Attributes

web_path

Methods

`__init__`(url[, custom_html_tags])	初始化DocusaurusLoader
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	从web_path中的URL异步加载文本到Documents中。
`fetch_all`(urls)	以限制速率并发获取所有URL。
`lazy_load`()	加载站点地图。
`load`()	将数据加载到文档对象中。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。
`parse_sitemap`(soup)	解析站点地图xml并加载到字典列表中。
`scrape`([parser])	从网页中抓取数据并以BeautifulSoup格式返回。
`scrape_all`(urls[, parser])	获取所有的URL，然后返回所有结果的网页源代码。

Parameters

url (str) –
custom_html_tags (Optional[List[str]]) –
kwargs (Any) –

__init__(url: str, custom_html_tags: Optional[List[str]] = None, **kwargs: Any)[source]¶

初始化DocusaurusLoader

参数:: url: Docusaurus网站的基本URL。 custom_html_tags: 可选的自定义HTML标签，用于从页面中提取内容。 kwargs: 用于扩展基础SitemapLoader的其他参数，例如:

filter_urls, blocksize, meta_function, is_local, continue_on_failure

Parameters

url (str) –
custom_html_tags (Optional[List[str]]) –
kwargs (Any) –

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

aload() → List[Document]¶

从web_path中的URL异步加载文本到Documents中。

Return type: List[Document]

async fetch_all(urls: List[str]) → Any¶

以限制速率并发获取所有URL。

Parameters: urls (List[str]) –
Return type: Any

lazy_load() → Iterator[Document]¶

加载站点地图。

Return type: Iterator[Document]

load() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

parse_sitemap(soup: Any) → List[dict]¶

解析站点地图xml并加载到字典列表中。

参数：: soup：BeautifulSoup对象。
返回：: 字典列表。

Parameters: soup (Any) –
Return type: List[dict]

scrape(parser: Optional[str] = None) → Any¶

从网页中抓取数据并以BeautifulSoup格式返回。

Parameters: parser (Optional[str]) –
Return type: Any

scrape_all(urls: List[str], parser: Optional[str] = None) → List[Any]¶

获取所有的URL，然后返回所有结果的网页源代码。

Parameters

urls (List[str]) –
parser (Optional[str]) –

Return type

List[Any]

Examples using DocusaurusLoader¶

langchain_community.document_loaders.docusaurus.DocusaurusLoader¶

Examples using DocusaurusLoader¶

`langchain_community.document_loaders.docusaurus`.DocusaurusLoader¶