SharePointLoader#
- class langchain_community.document_loaders.sharepoint.SharePointLoader[源代码]#
基础类:
O365BaseLoader
,BaseLoader
从 SharePoint 加载。
- param auth_with_token: bool = False#
是否使用令牌进行身份验证。默认为False。
- param chunk_size: int | str = 5242880#
每次从服务器调用API时检索的字节数。int 或 'auto'。
- param document_library_id: str [Required]#
从中加载数据的SharePoint文档库的ID。
- param folder_id: str | None = None#
从中加载数据的文件夹的ID。
- param folder_path: str | None = None#
加载数据的文件夹路径。
- param handlers: Dict[str, Any] | None = {}#
为MimeTypeBasedParser提供自定义处理程序。
传递一个字典,将文件扩展名(如“doc”、“pdf”等)或MIME类型(如“application/pdf”、“text/plain”等)映射到解析器。请注意,您必须仅使用文件扩展名或MIME类型,不能混合使用。
不要包含文件扩展名的前导点。
- handlers = {
“doc”: MsWordParser(), “pdf”: PDFMinerParser(), “txt”: TextParser()
}
- handlers = {
“application/msword”: MsWordParser(), “application/pdf”: PDFMinerParser(), “text/plain”: TextParser()
}
- param load_auth: bool | None = False#
是否加载授权身份。
- param load_extended_metadata: bool | None = False#
是否加载扩展元数据。大小、所有者和完整路径。
- param modified_since: datetime | None = None#
仅获取自给定日期时间以来修改的文档。日期时间对象必须包含时区信息。
- param object_ids: List[str] | None = None#
从中加载数据的对象的ID。
- param recursive: bool = False#
加载器是否应递归加载子文件夹?
- param settings: _O365Settings [Optional]#
Office365 API 客户端的设置。
- param token_path: Path = PosixPath('/home/runner/.credentials/o365_token.txt')#
用于进行API调用的令牌路径
- authorized_identities(file_id: str) → List[来源]#
检索给定文件的访问身份(用户/组电子邮件)。 :param file_id: 文件的ID。 :type file_id: str
- Returns:
- 一组组名(电子邮件地址)的列表,这些组名具有
访问文件的权限。
- Return type:
列表
- Parameters:
file_id (str)
- get_extended_metadata(file_id: str) → Dict[source]#
检索SharePoint中文件的扩展元数据。 截至今天,扩展元数据支持以下字段: - size: 源文件的大小。 - owner: 源文件所有者的显示名称。 - full_path: 源文件的易读路径。 :param file_id: 文件的ID。 :type file_id: str
- Returns:
- 包含文件扩展元数据的字典,
包括大小、所有者和完整路径。
- Return type:
字典
- Parameters:
file_id (str)
- lazy_load() → Iterator[Document][source]#
懒加载文档。在大规模工作时使用此方法。 :生成: 文档 – 表示解析后的blob的文档对象。
- Return type:
迭代器[文档]
- load_and_split(text_splitter: TextSplitter | None = None) → list[Document]#
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 SharePointLoader 的示例