Skip to content

Indexer CLI

GraphRAG Indexer CLI 允许无代码使用 GraphRAG Indexer。

python -m graphrag.index --verbose --root </workspace/project/root> \
--config <custom_config.yml> --resume <timestamp> \
--reporter <rich|print|none> --emit json,csv,parquet \
--nocache

CLI 参数

  • --verbose - 在运行过程中添加额外的日志信息。
  • --root <data-project-dir> - 数据根目录。该目录应包含一个包含输入数据的 input 目录和一个包含环境变量的 .env 文件。这些变量在下面描述。
  • --init - 这将在指定的 root 处初始化数据项目目录,并包含引导配置和提示覆盖。
  • --resume <output-timestamp> - 如果指定,管道将尝试恢复先前的运行。先前运行的 parquet 文件将被加载到系统中作为输入,并且生成这些文件的工作流将被跳过。输入值应为时间戳输出文件夹,例如 "20240105-143721"。
  • --config <config_file.yml> - 这将选择退出默认配置模式并执行自定义配置。如果使用此选项,则以下环境变量将不适用。
  • --reporter <reporter> - 这将指定要使用的进度报告器。默认值为 rich。有效值为 richprintnone
  • --emit <types> - 这指定了管道应发出的表输出格式。默认值为 parquet。有效值为 parquetcsvjson,以逗号分隔。
  • --nocache - 这将禁用缓存机制。这对于调试和开发很有用,但不应在生产环境中使用。
  • --output <directory> - 指定管道工件的输出目录。
  • --reports <directory> - 指定报告的输出目录。