LlamaParse#

LlamaParse 是 LlamaIndex 创建的 API，用于高效解析和表示文件，以便使用 LlamaIndex 框架进行高效检索和上下文增强。

LlamaParse 直接集成了LlamaIndex。

目前可免费使用。立即体验吧！

注意： 目前仅支持 PDF 文件。

入门指南#

首先，从 https://cloud.llamaindex.ai 登录并获取 api-key。

然后，确保安装了最新的 LlamaIndex 版本。

注意： 如果您正在从 v0.9.X 升级，我们建议按照我们的迁移指南进行操作，并先卸载先前的版本。

pip uninstall llama-index  # 如果从 v0.9.x 或更旧版本升级，请运行此命令
pip install -U llama-index --upgrade --no-cache-dir --force-reinstall

最后，安装该软件包：

pip install llama-parse

现在，您可以运行以下命令来解析您的第一个 PDF 文件：

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse

parser = LlamaParse(
    api_key="llx-...",  # 也可以在您的环境中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可用的选项为 "markdown" 和 "text"
    verbose=True,
)

# 同步
documents = parser.load_data("./my_file.pdf")

# 同步批处理
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])

# 异步
documents = await parser.aload_data("./my_file.pdf")

# 异步批处理
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])

与 `SimpleDirectoryReader` 结合使用#

您还可以将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器：

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

parser = LlamaParse(
    api_key="llx-...",  # 也可以在您的环境中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可用的选项为 "markdown" 和 "text"
    verbose=True,
)

file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader(
    "./data", file_extractor=file_extractor
).load_data()

有关 SimpleDirectoryReader 的完整文档，请参阅LlamaIndex 文档。

示例#

可以在示例文件夹中找到几个端到端索引示例

服务条款#

请参阅此处的服务条款。

LlamaParse#

入门指南#

与 SimpleDirectoryReader 结合使用#

示例#

服务条款#

与 `SimpleDirectoryReader` 结合使用#