Grobid解析器#

class langchain_community.document_loaders.parsers.grobid.GrobidParser(segment_sentences: bool, grobid_server: str = 'http://localhost:8070/api/processFulltextDocument')[source]#

使用Grobid加载文章PDF文件。

方法

`__init__`(segment_sentences[, grobid_server])
`lazy_parse`(blob)	懒解析接口。
`parse`(blob)	急切地将blob解析为一个或多个文档。
`process_xml`(file_path, xml_data, ...)	处理来自Grobin的XML文件。

Parameters:

segment_sentences (bool)
grobid_server (str)

__init__(segment_sentences: bool, grobid_server: str = 'http://localhost:8070/api/processFulltextDocument') → None[source]#

Parameters:

segment_sentences (bool)
grobid_server (str)

Return type:

无

lazy_parse(blob: Blob) → Iterator[Document][source]#

惰性解析接口。

子类需要实现这个方法。

Parameters:: blob (Blob) – Blob 实例
Returns:: 文档生成器
Return type:: 迭代器[文档]

parse(blob: Blob) → list[Document]#

急切地将blob解析为一个或多个文档。

这是一个用于交互式开发环境的便捷方法。

生产应用程序应优先使用lazy_parse方法。

子类通常不应重写此解析方法。

Parameters:: blob (Blob) – Blob 实例
Returns:: 文档列表
Return type:: 列表[Document]

process_xml(file_path: str, xml_data: str, segment_sentences: bool) → Iterator[Document][source]#

处理来自Grobin的XML文件。

Parameters:

file_path (str)
xml_data (str)
segment_sentences (bool)

Return type:

迭代器[文档]

使用 GrobidParser 的示例

Grobid