langchain_community.document_loaders.parsers.pdf
.PDFPlumberParser¶
- class langchain_community.document_loaders.parsers.pdf.PDFPlumberParser(text_kwargs: Optional[Mapping[str, Any]] = None, dedupe: bool = False, extract_images: bool = False)[source]¶
使用`PDFPlumber`解析`PDF`。
初始化解析器。
- 参数:
text_kwargs:传递给``pdfplumber.Page.extract_text()``的关键字参数 dedupe:如果`dedupe=True`,避免重复字符的错误。
Methods
__init__
([text_kwargs, dedupe, extract_images])初始化解析器。
lazy_parse
(blob)懒惰地解析blob。
parse
(blob)将blob急切地解析为一个文档或多个文档。
- Parameters
text_kwargs (Optional[Mapping[str, Any]]) –
dedupe (bool) –
extract_images (bool) –
- Return type
None
- __init__(text_kwargs: Optional[Mapping[str, Any]] = None, dedupe: bool = False, extract_images: bool = False) None [source]¶
初始化解析器。
- 参数:
text_kwargs:传递给``pdfplumber.Page.extract_text()``的关键字参数 dedupe:如果`dedupe=True`,避免重复字符的错误。
- Parameters
text_kwargs (Optional[Mapping[str, Any]]) –
dedupe (bool) –
extract_images (bool) –
- Return type
None