OneDriveLoader#

class langchain_community.document_loaders.onedrive.OneDriveLoader[source]#

基础类:SharePointLoader

从Microsoft OneDrive加载文档。 内部使用SharePointLoader

param auth_with_token: bool = False#

是否使用令牌进行身份验证。默认为False。

param chunk_size: int | str = 5242880#

每次从服务器调用API时检索的字节数。int 或 'auto'。

param document_library_id: str [Required]#

从中加载数据的SharePoint文档库的ID。

param drive_id: str [Required]#

从中加载数据的OneDrive驱动器的ID。

param folder_id: str | None = None#

从中加载数据的文件夹的ID。

param folder_path: str | None = None#

加载数据的文件夹路径。

param handlers: Dict[str, Any] | None = {}#

为MimeTypeBasedParser提供自定义处理程序。

传递一个字典,将文件扩展名(如“doc”、“pdf”等)或MIME类型(如“application/pdf”、“text/plain”等)映射到解析器。请注意,您必须仅使用文件扩展名或MIME类型,不能混合使用。

不要包含文件扩展名的前导点。

使用文件扩展名的示例: ```python

handlers = {

“doc”: MsWordParser(), “pdf”: PDFMinerParser(), “txt”: TextParser()

}

```

使用MIME类型的示例: ```python

handlers = {

“application/msword”: MsWordParser(), “application/pdf”: PDFMinerParser(), “text/plain”: TextParser()

}

```

param load_auth: bool | None = False#

是否加载授权身份。

param load_extended_metadata: bool | None = False#

是否加载扩展元数据。大小、所有者和完整路径。

param modified_since: datetime | None = None#

仅获取自给定日期时间以来修改的文档。日期时间对象必须包含时区信息。

param object_ids: List[str] | None = None#

从中加载数据的对象的ID。

param recursive: bool = False#

加载器是否应递归加载子文件夹?

param settings: _O365Settings [Optional]#

Office365 API 客户端的设置。

param token_path: Path = PosixPath('/home/runner/.credentials/o365_token.txt')#

用于进行API调用的令牌路径

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

authorized_identities(file_id: str) List#

检索给定文件的访问身份(用户/组电子邮件)。 :param file_id: 文件的ID。 :type file_id: str

Returns:

一组组名(电子邮件地址)的列表,这些组名具有

访问文件的权限。

Return type:

列表

Parameters:

file_id (str)

get_extended_metadata(file_id: str) Dict#

检索SharePoint中文件的扩展元数据。 截至今天,扩展元数据支持以下字段: - size: 源文件的大小。 - owner: 源文件所有者的显示名称。 - full_path: 源文件的易读路径。 :param file_id: 文件的ID。 :type file_id: str

Returns:

包含文件扩展元数据的字典,

包括大小、所有者和完整路径。

Return type:

字典

Parameters:

file_id (str)

lazy_load() Iterator[Document]#

懒加载文档。在大规模工作时使用此方法。 :生成: 文档 – 表示解析后的blob的文档对象。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

使用 OneDriveLoader 的示例