Grobid

GROBID 是一个用于提取、解析和重构原始文档的机器学习库。

它被设计和期望用于解析学术论文，在这方面表现得特别好。

注意: 如果提供给Grobid的文章是大文档（例如论文）且超过一定数量的元素，它们可能不会被处理。

本页面介绍了如何使用Grobid为LangChain解析文章。

安装

grobid的安装细节在https://grobid.readthedocs.io/en/latest/Install-Grobid/中有详细描述。然而，通过docker容器运行grobid可能更简单且麻烦更少，如这里所记录的。

使用 Grobid 与 LangChain

一旦grobid安装并运行起来（你可以通过访问http://localhost:8070来检查），你就可以开始了。

您现在可以使用GrobidParser生成文档

from langchain_community.document_loaders.parsers import GrobidParser
from langchain_community.document_loaders.generic import GenericLoader

#Produce chunks from article paragraphs
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=False)
)
docs = loader.load()

#Produce chunks from article sentences
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=True)
)
docs = loader.load()

API Reference:GrobidParser | GenericLoader

块元数据将包括边界框。虽然解析这些边界框有点复杂，但它们在https://grobid.readthedocs.io/en/latest/Coordinates-in-PDF/中有详细解释。

安装​

使用 Grobid 与 LangChain​

这个页面有帮助吗？

安装

使用 Grobid 与 LangChain