PDFPlumber解析器#
- class langchain_community.document_loaders.parsers.pdf.PDFPlumberParser(text_kwargs: Mapping[str, Any] | None = None, dedupe: bool = False, extract_images: bool = False)[source]#
使用PDFPlumber解析PDF。
初始化解析器。
- Parameters:
text_kwargs (可选[映射[str, 任意]]) – 传递给
pdfplumber.Page.extract_text()
的关键字参数dedupe (bool) – 如果 dedupe=True,则避免重复字符的错误。
extract_images (bool)
方法
__init__
([text_kwargs, dedupe, extract_images])初始化解析器。
lazy_parse
(blob)懒解析 blob。
parse
(blob)急切地将blob解析为一个或多个文档。
- __init__(text_kwargs: Mapping[str, Any] | None = None, dedupe: bool = False, extract_images: bool = False) None [source]#
初始化解析器。
- Parameters:
text_kwargs (Mapping[str, Any] | None) – 传递给
pdfplumber.Page.extract_text()
的关键字参数dedupe (bool) – 如果 dedupe=True,则避免重复字符的错误。
extract_images (bool)
- Return type:
无