黑板加载器#
- class langchain_community.document_loaders.blackboard.BlackboardLoader(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Tuple[str, str] | None = None, cookies: dict | None = None, continue_on_failure: bool = False, show_progress: bool = True)[来源]#
加载一个Blackboard课程。
此加载器不兼容所有Blackboard课程。它仅兼容使用新Blackboard界面的课程。要使用此加载器,您必须拥有BbRouter cookie。您可以通过登录课程然后从浏览器的开发者工具中复制BbRouter cookie的值来获取此cookie。
示例
from langchain_community.document_loaders import BlackboardLoader loader = BlackboardLoader( blackboard_course_url="https://blackboard.example.com/webapps/blackboard/execute/announcement?method=search&context=course_entry&course_id=_123456_1", bbrouter="expires:12345...", ) documents = loader.load()
使用黑板课程网址进行初始化。
BbRouter cookie 是大多数黑板课程所必需的。
- Parameters:
blackboard_course_url (str) – Blackboard 课程网址。
bbrouter (str) – BbRouter cookie。
load_all_recursively (bool) – 如果为True,则递归加载所有文档。
basic_auth (Tuple[str, str] | None) – 基本认证凭据。
cookies (dict | None) – Cookies。
continue_on_failure (bool) – 是否在加载URL时发生错误时继续加载站点地图,发出警告而不是引发异常。将此设置为True可以使加载器更加健壮,但也可能导致数据丢失。默认值:False
show_progress (bool) – 是否在加载时显示进度条。默认值:True
- Raises:
ValueError – 如果黑板课程网址无效。
属性
web_path
方法
__init__
(blackboard_course_url, bbrouter[, ...])使用Blackboard课程URL进行初始化。
异步从web_path中的URL(s)懒加载文本。
aload
()ascrape_all
(urls[, parser])异步获取所有URL,然后返回所有结果的soups。
检查是否安装了BeautifulSoup4。
download
(path)从URL下载文件。
fetch_all
(urls)并发获取所有URL,并带有速率限制。
从web_path中的URL懒加载文本。
load
()将数据加载到Document对象中。
load_and_split
([text_splitter])加载文档并将其分割成块。
parse_filename
(url)从URL中解析文件名。
scrape
([parser])从网页抓取数据并以BeautifulSoup格式返回。
scrape_all
(urls[, parser])获取所有URL,然后返回所有结果的soups。
- __init__(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Tuple[str, str] | None = None, cookies: dict | None = None, continue_on_failure: bool = False, show_progress: bool = True)[源代码]#
使用黑板课程网址进行初始化。
BbRouter cookie 是大多数黑板课程所必需的。
- Parameters:
blackboard_course_url (str) – Blackboard 课程网址。
bbrouter (str) – BbRouter cookie。
load_all_recursively (bool) – 如果为True,则递归加载所有文档。
basic_auth (Tuple[str, str] | None) – 基本认证凭据。
cookies (dict | None) – Cookies。
continue_on_failure (bool) – 是否在加载URL时发生错误时继续加载站点地图,发出警告而不是引发异常。将此设置为True可以使加载器更加健壮,但也可能导致数据丢失。默认值:False
show_progress (bool) – 是否在加载时显示进度条。默认值:True
- Raises:
ValueError – 如果黑板课程网址无效。
- async alazy_load() AsyncIterator[Document] #
从web_path中的URL异步懒加载文本。
- Return type:
AsyncIterator[Document]
- aload() List[Document] #
自版本0.3.14起已弃用:请参阅API参考以获取更新的用法:https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.web_base.WebBaseLoader.html 在langchain-community==1.0之前不会移除。
从web_path中的URL异步加载文本到Documents中。
- Return type:
列表[文档]
- async ascrape_all(urls: List[str], parser: str | None = None) List[Any] #
异步获取所有URL,然后返回所有结果的soups。
- Parameters:
urls (列表[字符串])
parser (str | None)
- Return type:
列表[任意类型]
- check_bs4() None [source]#
检查是否安装了BeautifulSoup4。
- Raises:
ImportError – 如果未安装BeautifulSoup4。
- Return type:
无
- async fetch_all(urls: List[str]) Any #
同时获取所有URL,并进行速率限制。
- Parameters:
urls (列表[字符串])
- Return type:
任何
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
- parse_filename(url: str) str [source]#
从URL中解析文件名。
- Parameters:
url (str) – 用于解析文件名的URL。
- Returns:
文件名。
- Return type:
字符串
- scrape(parser: str | None = None) Any #
从网页抓取数据并以BeautifulSoup格式返回。
- Parameters:
parser (str | None)
- Return type:
任何
- scrape_all(urls: List[str], parser: str | None = None) List[Any] #
获取所有URL,然后返回所有结果的soups。
- Parameters:
urls (列表[字符串])
parser (str | None)
- Return type:
列表[任意类型]
使用 BlackboardLoader 的示例