langchain_community.document_loaders.parsers.vsdx.VsdxParser

class langchain_community.document_loaders.parsers.vsdx.VsdxParser[source]

用于vsdx文件的解析器。

Methods

__init__()

get_pages_content(zfile, source)

获取vsdx文件页面的内容。

get_relationships(page, zfile, filelist, ...)

获取页面及其关系的关系,以此类推递归地获取。 页面基于其他页面(例如:背景页面), 因此我们需要获取所有关系以获取单个页面的所有内容。

lazy_parse(blob)

从.vsdx文件中提取页面内容,并将其插入到文档中,每个页面一个文档。

parse(blob)

解析一个vsdx文件。

__init__()
get_pages_content(zfile: ZipFile, source: str) List[Tuple[int, str, str]][source]

获取vsdx文件页面的内容。

属性:

zfile(zipfile.ZipFile):zip格式下的vsdx文件。 source(str):vsdx文件的路径。

返回:

list[tuple[int, str, str]]:包含页面编号、页面名称和页面内容的元组列表, 用于vsdx文件的每个页面。

Parameters
  • zfile (ZipFile) –

  • source (str) –

Return type

List[Tuple[int, str, str]]

get_relationships(page: str, zfile: ZipFile, filelist: List[str], pagexml_rels: List[dict]) Set[str][source]

获取页面及其关系的关系,以此类推递归地获取。 页面基于其他页面(例如:背景页面), 因此我们需要获取所有关系以获取单个页面的所有内容。

Parameters
  • page (str) –

  • zfile (ZipFile) –

  • filelist (List[str]) –

  • pagexml_rels (List[dict]) –

Return type

Set[str]

lazy_parse(blob: Blob) Iterator[Document][source]

从.vsdx文件中提取页面内容,并将其插入到文档中,每个页面一个文档。

Parameters

blob (Blob) –

Return type

Iterator[Document]

parse(blob: Blob) Iterator[Document][source]

解析一个vsdx文件。

Parameters

blob (Blob) –

Return type

Iterator[Document]