langchain_community.document_loaders.parsers.pdf
.PDFMinerParser¶
- class langchain_community.document_loaders.parsers.pdf.PDFMinerParser(extract_images: bool = False, *, concatenate_pages: bool = True)[source]¶
使用`PDFMiner`解析`PDF`。
基于PDFMiner初始化解析器。
- 参数:
extract_images: 是否从PDF中提取图像。 concatenate_pages: 如果为True,则将所有PDF页面连接成一个单个文档。否则,每页返回一个文档。
Methods
__init__
([extract_images, concatenate_pages])基于PDFMiner初始化解析器。
lazy_parse
(blob)懒惰地解析blob。
parse
(blob)将blob急切地解析为一个文档或多个文档。
- Parameters
extract_images (bool) –
concatenate_pages (bool) –
- __init__(extract_images: bool = False, *, concatenate_pages: bool = True)[source]¶
基于PDFMiner初始化解析器。
- 参数:
extract_images: 是否从PDF中提取图像。 concatenate_pages: 如果为True,则将所有PDF页面连接成一个单个文档。否则,每页返回一个文档。
- Parameters
extract_images (bool) –
concatenate_pages (bool) –