langchain_community.document_loaders.bibtex.BibtexLoader

class langchain_community.document_loaders.bibtex.BibtexLoader(file_path: str, *, parser: Optional[BibtexparserWrapper] = None, max_docs: Optional[int] = None, max_content_chars: Optional[int] = 4000, load_extra_metadata: bool = False, file_pattern: str = '[^:]+\\.pdf')[source]

加载一个`bibtex`文件。

每个文档代表`bibtex`文件中的一个条目。

如果在`file` bibtex字段中存在PDF文件,则将原始PDF加载到文档文本中。如果不存在这样的文件条目,则使用`abstract`字段。

初始化BibtexLoader。

参数:

file_path: bibtex文件的路径。 parser: 要使用的解析器。如果为None,则使用默认解析器。 max_docs: 要加载的关联文档的最大数量。使用-1表示没有限制。 max_content_chars: 从PDF中加载的最大字符数。 load_extra_metadata: 是否从PDF中加载额外的元数据。 file_pattern: 用于匹配bibtex中文件名的正则表达式模式。

Methods

__init__(file_path, *[, parser, max_docs, ...])

初始化BibtexLoader。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

lazy_load()

使用bibtexparser加载bibtex文件,并获取文章文本以及文章元数据。 参见https://bibtexparser.readthedocs.io/en/master/

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

Parameters
  • file_path (str) –

  • parser (Optional[BibtexparserWrapper]) –

  • max_docs (Optional[int]) –

  • max_content_chars (Optional[int]) –

  • load_extra_metadata (bool) –

  • file_pattern (str) –

__init__(file_path: str, *, parser: Optional[BibtexparserWrapper] = None, max_docs: Optional[int] = None, max_content_chars: Optional[int] = 4000, load_extra_metadata: bool = False, file_pattern: str = '[^:]+\\.pdf')[source]

初始化BibtexLoader。

参数:

file_path: bibtex文件的路径。 parser: 要使用的解析器。如果为None,则使用默认解析器。 max_docs: 要加载的关联文档的最大数量。使用-1表示没有限制。 max_content_chars: 从PDF中加载的最大字符数。 load_extra_metadata: 是否从PDF中加载额外的元数据。 file_pattern: 用于匹配bibtex中文件名的正则表达式模式。

Parameters
  • file_path (str) –

  • parser (Optional[BibtexparserWrapper]) –

  • max_docs (Optional[int]) –

  • max_content_chars (Optional[int]) –

  • load_extra_metadata (bool) –

  • file_pattern (str) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

lazy_load() Iterator[Document][source]

使用bibtexparser加载bibtex文件,并获取文章文本以及文章元数据。 参见https://bibtexparser.readthedocs.io/en/master/

返回:

一个包含文档文本格式的文档列表

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

Examples using BibtexLoader