Skip to content

LlamaParse#

LlamaParse 是 LlamaIndex 创建的 API,用于高效解析和表示文件,以便使用 LlamaIndex 框架进行高效检索和上下文增强。

LlamaParse 直接集成了LlamaIndex

目前可免费使用。立即体验吧!

注意: 目前仅支持 PDF 文件。

入门指南#

首先,从 https://cloud.llamaindex.ai 登录并获取 api-key。

然后,确保安装了最新的 LlamaIndex 版本。

注意: 如果您正在从 v0.9.X 升级,我们建议按照我们的迁移指南进行操作,并先卸载先前的版本。

pip uninstall llama-index  # 如果从 v0.9.x 或更旧版本升级,请运行此命令
pip install -U llama-index --upgrade --no-cache-dir --force-reinstall

最后,安装该软件包:

pip install llama-parse

现在,您可以运行以下命令来解析您的第一个 PDF 文件:

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse

parser = LlamaParse(
    api_key="llx-...",  # 也可以在您的环境中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可用的选项为 "markdown" 和 "text"
    verbose=True,
)

# 同步
documents = parser.load_data("./my_file.pdf")

# 同步批处理
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])

# 异步
documents = await parser.aload_data("./my_file.pdf")

# 异步批处理
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])

SimpleDirectoryReader 结合使用#

您还可以将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

parser = LlamaParse(
    api_key="llx-...",  # 也可以在您的环境中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可用的选项为 "markdown" 和 "text"
    verbose=True,
)

file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader(
    "./data", file_extractor=file_extractor
).load_data()

有关 SimpleDirectoryReader 的完整文档,请参阅LlamaIndex 文档

示例#

可以在示例文件夹中找到几个端到端索引示例

服务条款#

请参阅此处的服务条款