Vsdx解析器#

class langchain_community.document_loaders.parsers.vsdx.VsdxParser[source]#

用于解析vsdx文件的解析器。

方法

get_pages_content(zfile, source)

获取vsdx文件的页面内容。

get_relationships(page, zfile, filelist, ...)

获取页面及其关系的关联关系等。

lazy_parse(blob)

从.vsdx文件中检索页面内容并将其插入到文档中,每个页面一个文档。

parse(blob)

解析一个vsdx文件。

get_pages_content(zfile: ZipFile, source: str) List[Tuple[int, str, str]][source]#

获取vsdx文件的页面内容。

zfile#

zip格式下的vsdx文件。

Type:

zipfile.ZipFile

source#

vsdx文件的路径。

Type:

字符串

Returns:

一个包含元组的列表,每个元组包含vsdx文件的每一页的页码、页面名称和页面内容。

Return type:

list[tuple[int, str, str]]

Parameters:
  • zfile (ZipFile)

  • source (str)

get_relationships(page: str, zfile: ZipFile, filelist: List[str], pagexml_rels: List[dict]) Set[str][source]#

获取页面的关系及其关系的关系等,递归地。 页面基于其他页面(例如:背景页面), 因此我们需要获取所有关系以获取单个页面的所有内容。

Parameters:
  • page (str)

  • zfile (ZipFile)

  • filelist (列表[字符串])

  • pagexml_rels (列表[字典])

Return type:

集合[str]

lazy_parse(blob: Blob) Iterator[Document][来源]#

从.vsdx文件中检索页面的内容 并将它们插入到文档中,每个页面一个文档。

Parameters:

blob (Blob)

Return type:

迭代器[文档]

parse(blob: Blob) Iterator[Document][source]#

解析一个vsdx文件。

Parameters:

blob (Blob)

Return type:

迭代器[文档]