langchain_community.document_loaders.blackboard.BlackboardLoader

class langchain_community.document_loaders.blackboard.BlackboardLoader(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Optional[Tuple[str, str]] = None, cookies: Optional[dict] = None, continue_on_failure: bool = False)[source]

加载一个`Blackboard`课程。

这个加载器不兼容所有的Blackboard课程。它只兼容使用新Blackboard界面的课程。 要使用这个加载器,你必须有BbRouter cookie。你可以通过登录课程然后从浏览器的开发者工具中复制BbRouter cookie的值来获取这个cookie。

示例:
from langchain_community.document_loaders import BlackboardLoader

loader = BlackboardLoader(
    blackboard_course_url="https://blackboard.example.com/webapps/blackboard/execute/announcement?method=search&context=course_entry&course_id=_123456_1",
    bbrouter="expires:12345...",
)
documents = loader.load()

初始化为黑板课程网址。

大多数黑板课程都需要BbRouter cookie。

参数:

blackboard_course_url:黑板课程网址。 bbrouter:BbRouter cookie。 load_all_recursively:如果为True,则递归加载所有文档。 basic_auth:基本身份验证凭据。 cookies:Cookies。 continue_on_failure:是否在加载网址时发生错误时继续加载站点地图,发出警告而不是引发异常。将此设置为True可以使加载器更加健壮,但也可能导致数据丢失。默认值:False

引发:

ValueError:如果黑板课程网址无效。

Attributes

web_path

Methods

__init__(blackboard_course_url, bbrouter[, ...])

初始化为黑板课程网址。

alazy_load()

一个用于文档的惰性加载器。

aload()

从web_path中的URL异步加载文本到Documents中。

check_bs4()

检查是否安装了BeautifulSoup4。

download(path)

从URL下载文件。

fetch_all(urls)

以限制速率并发获取所有URL。

lazy_load()

从web_path中的url(s)中延迟加载文本。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

parse_filename(url)

从url中解析文件名。

scrape([parser])

从网页中抓取数据并以BeautifulSoup格式返回。

scrape_all(urls[, parser])

获取所有的URL,然后返回所有结果的网页源代码。

Parameters
  • blackboard_course_url (str) –

  • bbrouter (str) –

  • load_all_recursively (bool) –

  • basic_auth (Optional[Tuple[str, str]]) –

  • cookies (Optional[dict]) –

  • continue_on_failure (bool) –

__init__(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Optional[Tuple[str, str]] = None, cookies: Optional[dict] = None, continue_on_failure: bool = False)[source]

初始化为黑板课程网址。

大多数黑板课程都需要BbRouter cookie。

参数:

blackboard_course_url:黑板课程网址。 bbrouter:BbRouter cookie。 load_all_recursively:如果为True,则递归加载所有文档。 basic_auth:基本身份验证凭据。 cookies:Cookies。 continue_on_failure:是否在加载网址时发生错误时继续加载站点地图,发出警告而不是引发异常。将此设置为True可以使加载器更加健壮,但也可能导致数据丢失。默认值:False

引发:

ValueError:如果黑板课程网址无效。

Parameters
  • blackboard_course_url (str) –

  • bbrouter (str) –

  • load_all_recursively (bool) –

  • basic_auth (Optional[Tuple[str, str]]) –

  • cookies (Optional[dict]) –

  • continue_on_failure (bool) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

aload() List[Document]

从web_path中的URL异步加载文本到Documents中。

Return type

List[Document]

check_bs4() None[source]

检查是否安装了BeautifulSoup4。

引发:

ImportError: 如果未安装BeautifulSoup4。

Return type

None

download(path: str) None[source]

从URL下载文件。

参数:

path:文件的路径。

Parameters

path (str) –

Return type

None

async fetch_all(urls: List[str]) Any

以限制速率并发获取所有URL。

Parameters

urls (List[str]) –

Return type

Any

lazy_load() Iterator[Document]

从web_path中的url(s)中延迟加载文本。

Return type

Iterator[Document]

load() List[Document][source]

将数据加载到Document对象中。

返回:

Document对象的列表。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

parse_filename(url: str) str[source]

从url中解析文件名。

参数:

url:要从中解析文件名的url。

返回:

文件名。

Parameters

url (str) –

Return type

str

scrape(parser: Optional[str] = None) Any

从网页中抓取数据并以BeautifulSoup格式返回。

Parameters

parser (Optional[str]) –

Return type

Any

scrape_all(urls: List[str], parser: Optional[str] = None) List[Any]

获取所有的URL,然后返回所有结果的网页源代码。

Parameters
  • urls (List[str]) –

  • parser (Optional[str]) –

Return type

List[Any]

Examples using BlackboardLoader