Smart pdf loader
SmartPDFLoader #
Bases: BaseReader
SmartPDFLoader使用嵌套布局信息,如章节、段落、列表和表格,智能地将PDF文件分块,以实现LLM上下文窗口的最佳使用。
Parameters:
Name | Type | Description | Default |
---|---|---|---|
llmsherpa_api_url |
str
|
llmsherpa PDF解析器托管服务的地址 |
None
|
Source code in llama_index/readers/smart_pdf_loader/base.py
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
|
load_data #
load_data(
pdf_path_or_url: str, extra_info: Optional[Dict] = None
) -> List[Document]
加载数据并从PDF文件中提取表格。
Returns:
Type | Description |
---|---|
List[Document]
|
List[Document]:文档列表。 |
Source code in llama_index/readers/smart_pdf_loader/base.py
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
|