langchain_community.document_loaders.pdf
.DocumentIntelligenceLoader¶
- class langchain_community.document_loaders.pdf.DocumentIntelligenceLoader(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None)[source]¶
使用Azure文档智能加载PDF
使用Azure文档智能(以前称为表单识别器)初始化文件处理对象。
此构造函数初始化一个DocumentIntelligenceParser对象,用于使用Azure文档智能API解析文件。load方法为每个页面生成包含元数据(源blob和页码)的Document节点。
- file_pathstr
需要解析的文件路径。
- client: Any
用于执行blob分析的DocumentAnalysisClient
- modelstr
用于在Azure中进行表单识别的模型名称或ID。
>>> obj = DocumentIntelligenceLoader( ... file_path="path/to/file", ... client=client, ... model="prebuilt-document" ... )
Attributes
source
Methods
__init__
(file_path, client[, model, headers])使用Azure文档智能(以前称为表单识别器)初始化文件处理对象。
一个用于文档的惰性加载器。
aload
()将数据加载到文档对象中。
将给定路径作为页面进行延迟加载。
load
()将给定路径加载为页面。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
- Parameters
file_path (str) –
client (Any) –
model (str) –
headers (Optional[Dict]) –
- Return type
None
- __init__(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None) None [source]¶
使用Azure文档智能(以前称为表单识别器)初始化文件处理对象。
此构造函数初始化一个DocumentIntelligenceParser对象,用于使用Azure文档智能API解析文件。load方法为每个页面生成包含元数据(源blob和页码)的Document节点。
- file_pathstr
需要解析的文件路径。
- client: Any
用于执行blob分析的DocumentAnalysisClient
- modelstr
用于在Azure中进行表单识别的模型名称或ID。
>>> obj = DocumentIntelligenceLoader( ... file_path="path/to/file", ... client=client, ... model="prebuilt-document" ... )
- Parameters
file_path (str) –
client (Any) –
model (str) –
headers (Optional[Dict]) –
- Return type
None
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]