Vsdx解析器#
- class langchain_community.document_loaders.parsers.vsdx.VsdxParser[source]#
用于解析vsdx文件的解析器。
方法
get_pages_content
(zfile, source)获取vsdx文件的页面内容。
get_relationships
(page, zfile, filelist, ...)获取页面及其关系的关联关系等。
lazy_parse
(blob)从.vsdx文件中检索页面内容并将其插入到文档中,每个页面一个文档。
parse
(blob)解析一个vsdx文件。
- get_pages_content(zfile: ZipFile, source: str) List[Tuple[int, str, str]] [source]#
获取vsdx文件的页面内容。
- zfile#
zip格式下的vsdx文件。
- Type:
zipfile.ZipFile
- source#
vsdx文件的路径。
- Type:
字符串
- Returns:
一个包含元组的列表,每个元组包含vsdx文件的每一页的页码、页面名称和页面内容。
- Return type:
list[tuple[int, str, str]]
- Parameters:
zfile (ZipFile)
source (str)
- get_relationships(page: str, zfile: ZipFile, filelist: List[str], pagexml_rels: List[dict]) Set[str] [source]#
获取页面的关系及其关系的关系等,递归地。 页面基于其他页面(例如:背景页面), 因此我们需要获取所有关系以获取单个页面的所有内容。
- Parameters:
page (str)
zfile (ZipFile)
filelist (列表[字符串])
pagexml_rels (列表[字典])
- Return type:
集合[str]