跳到主要内容

PDFSearchTool

!!! note "实验性质" 我们仍在努力改进工具,因此未来可能会出现意外行为或更改。

描述

PDFSearchTool 是一种用于在 PDF 内容中进行语义搜索的 RAG 工具。它允许输入搜索查询和 PDF 文档,利用先进的搜索技术高效地找到相关内容。这种能力使其特别适用于快速从大型 PDF 文件中提取特定信息。

安装

要开始使用 PDFSearchTool,请确保使用以下命令安装 crewai_tools 包:

pip install 'crewai[tools]'

示例

以下是如何使用 PDFSearchTool 在 PDF 文档中进行搜索:

from crewai_tools import PDFSearchTool

# 初始化工具,允许在执行期间提供路径时进行任何 PDF 内容搜索
tool = PDFSearchTool()

# 或者

# 使用特定的 PDF 路径初始化工具,以在该文档中进行独占搜索
tool = PDFSearchTool(pdf='path/to/your/document.pdf')

参数

  • pdf: 可选 搜索的 PDF 路径。可以在初始化时提供,也可以在 run 方法的参数中提供。如果在初始化时提供,工具将限制其搜索范围到指定的文档。

自定义模型和嵌入

默认情况下,该工具使用 OpenAI 进行嵌入和摘要。要自定义模型,可以使用以下配置字典:

tool = PDFSearchTool(
config=dict(
llm=dict(
provider="ollama", # 或 google, openai, anthropic, llama2, ...
config=dict(
model="llama2",
# temperature=0.5,
# top_p=1,
# stream=true,
),
),
embedder=dict(
provider="google", # 或 openai, ollama, ...
config=dict(
model="models/embedding-001",
task_type="retrieval_document",
# title="Embeddings",
),
),
)
)