O365BaseLoader#

class langchain_community.document_loaders.base_o365.O365BaseLoader[来源]#

基础类:BaseLoader, BaseModel

所有使用O365包的加载器的基类

param auth_with_token: bool = False#

是否使用令牌进行身份验证。默认为False。

param chunk_size: int | str = 5242880#

每次从服务器调用API时检索的字节数。int 或 'auto'。

param handlers: Dict[str, Any] | None = {}#

为MimeTypeBasedParser提供自定义处理程序。

传递一个字典,将文件扩展名(如“doc”、“pdf”等)或MIME类型(如“application/pdf”、“text/plain”等)映射到解析器。请注意,您必须仅使用文件扩展名或MIME类型,不能混合使用。

不要包含文件扩展名的前导点。

使用文件扩展名的示例: ```python

handlers = {

“doc”: MsWordParser(), “pdf”: PDFMinerParser(), “txt”: TextParser()

}

```

使用MIME类型的示例: ```python

handlers = {

“application/msword”: MsWordParser(), “application/pdf”: PDFMinerParser(), “text/plain”: TextParser()

}

```

param modified_since: datetime | None = None#

仅获取自给定日期时间以来修改的文档。日期时间对象必须包含时区信息。

param recursive: bool = False#

加载器是否应递归加载子文件夹?

param settings: _O365Settings [Optional]#

Office365 API 客户端的设置。

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document]#

文档的懒加载器。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]