LlamaParse#
LlamaParse 是 LlamaIndex 创建的 API,用于高效解析和表示文件,以便使用 LlamaIndex 框架进行高效检索和上下文增强。
LlamaParse 直接集成了LlamaIndex。
目前可免费使用。立即体验吧!
注意: 目前仅支持 PDF 文件。
入门指南#
首先,从 https://cloud.llamaindex.ai
登录并获取 api-key。
然后,确保安装了最新的 LlamaIndex 版本。
注意: 如果您正在从 v0.9.X 升级,我们建议按照我们的迁移指南进行操作,并先卸载先前的版本。
pip uninstall llama-index # 如果从 v0.9.x 或更旧版本升级,请运行此命令
pip install -U llama-index --upgrade --no-cache-dir --force-reinstall
最后,安装该软件包:
pip install llama-parse
现在,您可以运行以下命令来解析您的第一个 PDF 文件:
import nest_asyncio
nest_asyncio.apply()
from llama_parse import LlamaParse
parser = LlamaParse(
api_key="llx-...", # 也可以在您的环境中设置为 LLAMA_CLOUD_API_KEY
result_type="markdown", # 可用的选项为 "markdown" 和 "text"
verbose=True,
)
# 同步
documents = parser.load_data("./my_file.pdf")
# 同步批处理
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])
# 异步
documents = await parser.aload_data("./my_file.pdf")
# 异步批处理
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])
与 SimpleDirectoryReader
结合使用#
您还可以将解析器集成为 SimpleDirectoryReader
中的默认 PDF 加载器:
import nest_asyncio
nest_asyncio.apply()
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader
parser = LlamaParse(
api_key="llx-...", # 也可以在您的环境中设置为 LLAMA_CLOUD_API_KEY
result_type="markdown", # 可用的选项为 "markdown" 和 "text"
verbose=True,
)
file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader(
"./data", file_extractor=file_extractor
).load_data()
有关 SimpleDirectoryReader
的完整文档,请参阅LlamaIndex 文档。
示例#
可以在示例文件夹中找到几个端到端索引示例
服务条款#
请参阅此处的服务条款。