Grobid解析器#

class langchain_community.document_loaders.parsers.grobid.GrobidParser(segment_sentences: bool, grobid_server: str = 'http://localhost:8070/api/processFulltextDocument')[source]#

使用Grobid加载文章PDF文件。

方法

__init__(segment_sentences[, grobid_server])

lazy_parse(blob)

懒解析接口。

parse(blob)

急切地将blob解析为一个或多个文档。

process_xml(file_path, xml_data, ...)

处理来自Grobin的XML文件。

Parameters:
  • segment_sentences (bool)

  • grobid_server (str)

__init__(segment_sentences: bool, grobid_server: str = 'http://localhost:8070/api/processFulltextDocument') None[source]#
Parameters:
  • segment_sentences (bool)

  • grobid_server (str)

Return type:

lazy_parse(blob: Blob) Iterator[Document][source]#

惰性解析接口。

子类需要实现这个方法。

Parameters:

blob (Blob) – Blob 实例

Returns:

文档生成器

Return type:

迭代器[文档]

parse(blob: Blob) list[Document]#

急切地将blob解析为一个或多个文档。

这是一个用于交互式开发环境的便捷方法。

生产应用程序应优先使用lazy_parse方法。

子类通常不应重写此解析方法。

Parameters:

blob (Blob) – Blob 实例

Returns:

文档列表

Return type:

列表[Document]

process_xml(file_path: str, xml_data: str, segment_sentences: bool) Iterator[Document][source]#

处理来自Grobin的XML文件。

Parameters:
  • file_path (str)

  • xml_data (str)

  • segment_sentences (bool)

Return type:

迭代器[文档]

使用 GrobidParser 的示例