langchain_community.document_loaders.pebblo
.PebbloSafeLoader¶
- class langchain_community.document_loaders.pebblo.PebbloSafeLoader(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None)[source]¶
Pebblo Safe Loader类是对文档加载器的封装,使数据可以被仔细审查。
Methods
__init__
(langchain_loader, name[, owner, ...])一个用于文档的惰性加载器。
aload
()将数据加载到文档对象中。
calculate_content_size
(page_content)计算内容大小(以字节为单位): - 使用特定编码(例如UTF-8)将字符串编码为字节。 - 获取编码后字节的长度。
get_file_owner_from_path
(file_path)获取本地文件路径的所有者。
get_source_size
(source_path)获取源路径的大小。源可以是目录或文件。
以惰性方式加载文档。
load
()加载文档。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
- Parameters
langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –
- __init__(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None)[source]¶
- Parameters
langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –
- static calculate_content_size(page_content: str) int [source]¶
计算内容大小(以字节为单位): - 使用特定编码(例如UTF-8)将字符串编码为字节。 - 获取编码后字节的长度。
- 参数:
page_content(str):数据字符串。
- 返回:
int:字符串的字节大小。
- Parameters
page_content (str) –
- Return type
int
- static get_file_owner_from_path(file_path: str) str [source]¶
获取本地文件路径的所有者。
- 参数:
file_path(str):本地文件路径。
- 返回:
str:所有者的名称。
- Parameters
file_path (str) –
- Return type
str
- get_source_size(source_path: str) int [source]¶
获取源路径的大小。源可以是目录或文件。
- 参数:
source_path(str):数据源的本地路径。
- 返回:
int:以字节为单位的源大小。
- Parameters
source_path (str) –
- Return type
int
- lazy_load() Iterator[Document] [source]¶
以惰性方式加载文档。
- 引发:
NotImplementedError: 当惰性加载未在包装的加载器中实现时引发。
- 产出:
list: 从加载器的惰性加载中获取的文档。
- Return type
Iterator[Document]
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]