`langchain_community.document_loaders.bibtex`.BibtexLoader¶

class langchain_community.document_loaders.bibtex.BibtexLoader(file_path: str, *, parser: Optional[BibtexparserWrapper] = None, max_docs: Optional[int] = None, max_content_chars: Optional[int] = 4000, load_extra_metadata: bool = False, file_pattern: str = '[^:]+\\.pdf')[source]¶

加载一个`bibtex`文件。

每个文档代表`bibtex`文件中的一个条目。

如果在`file` bibtex字段中存在PDF文件，则将原始PDF加载到文档文本中。如果不存在这样的文件条目，则使用`abstract`字段。

初始化BibtexLoader。

参数：: file_path: bibtex文件的路径。 parser: 要使用的解析器。如果为None，则使用默认解析器。 max_docs: 要加载的关联文档的最大数量。使用-1表示没有限制。 max_content_chars: 从PDF中加载的最大字符数。 load_extra_metadata: 是否从PDF中加载额外的元数据。 file_pattern: 用于匹配bibtex中文件名的正则表达式模式。

Methods

`__init__`(file_path, *[, parser, max_docs, ...])	初始化BibtexLoader。
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	将数据加载到文档对象中。
`lazy_load`()	使用bibtexparser加载bibtex文件，并获取文章文本以及文章元数据。参见https://bibtexparser.readthedocs.io/en/master/
`load`()	将数据加载到文档对象中。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。

Parameters

file_path (str) –
parser (Optional[BibtexparserWrapper]) –
max_docs (Optional[int]) –
max_content_chars (Optional[int]) –
load_extra_metadata (bool) –
file_pattern (str) –

__init__(file_path: str, *, parser: Optional[BibtexparserWrapper] = None, max_docs: Optional[int] = None, max_content_chars: Optional[int] = 4000, load_extra_metadata: bool = False, file_pattern: str = '[^:]+\\.pdf')[source]¶

初始化BibtexLoader。

参数：: file_path: bibtex文件的路径。 parser: 要使用的解析器。如果为None，则使用默认解析器。 max_docs: 要加载的关联文档的最大数量。使用-1表示没有限制。 max_content_chars: 从PDF中加载的最大字符数。 load_extra_metadata: 是否从PDF中加载额外的元数据。 file_pattern: 用于匹配bibtex中文件名的正则表达式模式。

Parameters

file_path (str) –
parser (Optional[BibtexparserWrapper]) –
max_docs (Optional[int]) –
max_content_chars (Optional[int]) –
load_extra_metadata (bool) –
file_pattern (str) –

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

lazy_load() → Iterator[Document][source]¶

使用bibtexparser加载bibtex文件，并获取文章文本以及文章元数据。参见https://bibtexparser.readthedocs.io/en/master/

返回：: 一个包含文档文本格式的文档列表

Return type: Iterator[Document]

load() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

Examples using BibtexLoader¶

langchain_community.document_loaders.bibtex.BibtexLoader¶

Examples using BibtexLoader¶

`langchain_community.document_loaders.bibtex`.BibtexLoader¶