`langchain_community.document_loaders.pebblo`.PebbloSafeLoader¶

class langchain_community.document_loaders.pebblo.PebbloSafeLoader(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None)[source]¶

Pebblo Safe Loader类是对文档加载器的封装，使数据可以被仔细审查。

Methods

`__init__`(langchain_loader, name[, owner, ...])
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	将数据加载到文档对象中。
`calculate_content_size`(page_content)	计算内容大小（以字节为单位）： - 使用特定编码（例如UTF-8）将字符串编码为字节。 - 获取编码后字节的长度。
`get_file_owner_from_path`(file_path)	获取本地文件路径的所有者。
`get_source_size`(source_path)	获取源路径的大小。源可以是目录或文件。
`lazy_load`()	以惰性方式加载文档。
`load`()	加载文档。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。
`set_discover_sent`()
`set_loader_sent`()

Parameters

langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –

__init__(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None)[source]¶

Parameters

langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

static calculate_content_size(page_content: str) → int[source]¶

计算内容大小（以字节为单位）： - 使用特定编码（例如UTF-8）将字符串编码为字节。 - 获取编码后字节的长度。

参数：: page_content（str）：数据字符串。
返回：: int：字符串的字节大小。

Parameters: page_content (str) –
Return type: int

static get_file_owner_from_path(file_path: str) → str[source]¶

获取本地文件路径的所有者。

参数：: file_path（str）：本地文件路径。
返回：: str：所有者的名称。

Parameters: file_path (str) –
Return type: str

get_source_size(source_path: str) → int[source]¶

获取源路径的大小。源可以是目录或文件。

参数：: source_path（str）：数据源的本地路径。
返回：: int：以字节为单位的源大小。

Parameters: source_path (str) –
Return type: int

lazy_load() → Iterator[Document][source]¶

以惰性方式加载文档。

引发：: NotImplementedError: 当惰性加载未在包装的加载器中实现时引发。
产出：: list: 从加载器的惰性加载中获取的文档。

Return type: Iterator[Document]

load() → List[Document][source]¶

加载文档。

返回：: 列表：从包装的“loader”的加载方法获取的文档。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

classmethod set_discover_sent() → None[source]¶

Return type: None

classmethod set_loader_sent() → None[source]¶

Return type: None

Examples using PebbloSafeLoader¶

pebblo.md

langchain_community.document_loaders.pebblo.PebbloSafeLoader¶

Examples using PebbloSafeLoader¶

`langchain_community.document_loaders.pebblo`.PebbloSafeLoader¶