langchain_community.document_loaders.parsers.vsdx
.VsdxParser¶
- class langchain_community.document_loaders.parsers.vsdx.VsdxParser[source]¶
用于vsdx文件的解析器。
Methods
__init__
()get_pages_content
(zfile, source)获取vsdx文件页面的内容。
get_relationships
(page, zfile, filelist, ...)获取页面及其关系的关系,以此类推递归地获取。 页面基于其他页面(例如:背景页面), 因此我们需要获取所有关系以获取单个页面的所有内容。
lazy_parse
(blob)从.vsdx文件中提取页面内容,并将其插入到文档中,每个页面一个文档。
parse
(blob)解析一个vsdx文件。
- __init__()¶
- get_pages_content(zfile: ZipFile, source: str) List[Tuple[int, str, str]] [source]¶
获取vsdx文件页面的内容。
- 属性:
zfile(zipfile.ZipFile):zip格式下的vsdx文件。 source(str):vsdx文件的路径。
- 返回:
list[tuple[int, str, str]]:包含页面编号、页面名称和页面内容的元组列表, 用于vsdx文件的每个页面。
- Parameters
zfile (ZipFile) –
source (str) –
- Return type
List[Tuple[int, str, str]]
- get_relationships(page: str, zfile: ZipFile, filelist: List[str], pagexml_rels: List[dict]) Set[str] [source]¶
获取页面及其关系的关系,以此类推递归地获取。 页面基于其他页面(例如:背景页面), 因此我们需要获取所有关系以获取单个页面的所有内容。
- Parameters
page (str) –
zfile (ZipFile) –
filelist (List[str]) –
pagexml_rels (List[dict]) –
- Return type
Set[str]