PDFMiner解析器#
- class langchain_community.document_loaders.parsers.pdf.PDFMinerParser(extract_images: bool = False, *, concatenate_pages: bool = True)[source]#
使用PDFMiner解析PDF。
基于PDFMiner初始化一个解析器。
- Parameters:
extract_images (bool) – 是否从PDF中提取图像。
concatenate_pages (bool) – 如果为True,将所有PDF页面合并为一个文档。否则,每页返回一个文档。
方法
__init__
([extract_images, concatenate_pages])初始化一个基于PDFMiner的解析器。
lazy_parse
(blob)懒解析 blob。
parse
(blob)急切地将blob解析为一个或多个文档。
- __init__(extract_images: bool = False, *, concatenate_pages: bool = True)[source]#
初始化一个基于PDFMiner的解析器。
- Parameters:
extract_images (bool) – 是否从PDF中提取图像。
concatenate_pages (bool) – 如果为True,将所有PDF页面合并为一个文档。否则,每页返回一个文档。