ArxivAPIWrapper#
- class langchain_community.utilities.arxiv.ArxivAPIWrapper[来源]#
基础类:
BaseModel
围绕ArxivAPI的封装。
要使用,您应该安装
arxiv
python包。 https://lukasschwab.me/arxiv.py/index.html 此包装器将使用Arxiv API进行搜索并获取文档摘要。默认情况下,它将返回前k个结果的文档摘要。 如果查询是arxiv标识符的形式(参见https://info.arxiv.org/help/find/index.html),它将返回与arxiv标识符对应的论文。 它通过doc_content_chars_max限制文档内容。如果您不想限制内容大小,请设置doc_content_chars_max=None。- top_k_results#
用于arxiv工具的得分最高的文档数量
- ARXIV_MAX_QUERY_LENGTH#
用于arxiv工具的查询的切割限制。
- continue_on_failure#
如果为True,在失败时继续加载其他URL。
- Type:
布尔
- load_max_docs#
加载文档数量的限制
- load_all_available_meta#
如果为True:加载的文档的元数据包含所有可用的元信息(参见https://lukasschwab.me/arxiv.py/index.html#Result), 如果为False:元数据仅包含发布日期、标题、作者和摘要。
- doc_content_chars_max#
文档内容长度的可选截断限制
示例
from langchain_community.utilities.arxiv import ArxivAPIWrapper arxiv = ArxivAPIWrapper( top_k_results = 3, ARXIV_MAX_QUERY_LENGTH = 300, load_max_docs = 3, load_all_available_meta = False, doc_content_chars_max = 40000 ) arxiv.run("tree of thought llm")
通过解析和验证来自关键字参数的输入数据来创建一个新模型。
如果输入数据无法验证以形成有效模型,则引发 [ValidationError][pydantic_core.ValidationError]。
self 被显式地设为仅位置参数,以允许 self 作为字段名称。
- param ARXIV_MAX_QUERY_LENGTH: int = 300#
- param arxiv_exceptions: Any [Required]#
- param continue_on_failure: bool = False#
- param doc_content_chars_max: int | None = 4000#
- param load_all_available_meta: bool = False#
- param load_max_docs: int = 100#
- param top_k_results: int = 3#
- get_summaries_as_docs(query: str) List[Document] [source]#
执行arxiv搜索并返回文档列表,摘要作为内容。
如果发生错误或未找到文档,则返回错误文本。这是https://lukasschwab.me/arxiv.py/index.html#Search的封装。
- Parameters:
query (str) – 一个纯文本搜索查询
- Return type:
列表[文档]
- is_arxiv_identifier(query: str) bool [source]#
检查查询是否为arxiv标识符。
- Parameters:
query (str)
- Return type:
布尔
- lazy_load(query: str) Iterator[Document] [source]#
运行Arxiv搜索并获取文章文本以及文章的元信息。 参见 https://lukasschwab.me/arxiv.py/index.html#Search
返回:包含 document.page_content 的文本格式的文档
执行arxiv搜索,下载前k个结果作为PDF,将它们加载为文档,并返回它们。
- Parameters:
query (str) – 一个纯文本搜索查询
- Return type:
迭代器[文档]
- load(query: str) List[Document] [source]#
运行Arxiv搜索并获取文章文本以及文章的元信息。 参见 https://lukasschwab.me/arxiv.py/index.html#Search
返回:一个包含 document.page_content 的文档列表,格式为文本
执行一个arxiv搜索,下载前k个结果作为PDF,将它们加载为文档,并在列表中返回它们。
- Parameters:
query (str) – 一个纯文本搜索查询
- Return type:
列表[文档]
- run(query: str) str [source]#
执行一个arxiv搜索,并为每篇文章生成一个包含发布日期、标题、作者和摘要的字符串,每篇文章之间用两个换行符分隔。
如果发生错误或未找到文档,则返回错误文本。这是https://lukasschwab.me/arxiv.py/index.html#Search的封装。
- Parameters:
query (str) – 一个纯文本搜索查询
- Return type:
字符串
使用 ArxivAPIWrapper 的示例