Skip to content

默认配置模式(使用 JSON/YAML)

默认配置模式可以通过在数据项目根目录下使用 settings.jsonsettings.yml 文件进行配置。如果存在一个 .env 文件与该配置文件一起,那么它将被加载,并且其中定义的环境变量将可用于使用 ${ENV_VAR} 语法在配置文档中进行令牌替换。

例如:

# .env
API_KEY=some_api_key

# settings.json
{
    "llm": {
        "api_key": "${API_KEY}"
    }
}

配置部分

input

字段

  • type file|blob - 使用的输入类型。默认=file
  • file_type text|csv - 要加载的输入数据类型。可以是 textcsv。默认是 text
  • file_encoding str - 输入文件的编码。默认是 utf-8
  • file_pattern str - 匹配输入文件的正则表达式。默认在 csv 模式下是 .*\.csv$,在文本模式下是 .*\.txt$
  • source_column str - (仅限 CSV 模式)源列名。
  • timestamp_column str - (仅限 CSV 模式)时间戳列名。
  • timestamp_format str - (仅限 CSV 模式)源格式。
  • text_column str - (仅限 CSV 模式)文本列名。
  • title_column str - (仅限 CSV 模式)标题列名。
  • document_attribute_columns list[str] - (仅限 CSV 模式)要包含的额外文档属性。
  • connection_string str - (仅限 blob)Azure 存储连接字符串。
  • container_name str - (仅限 blob)Azure 存储容器名称。
  • base_dir str - 要读取输入的基目录,相对于根目录。
  • storage_account_blob_url str - 要使用的存储账户 blob URL。

llm

这是基础 LLM 配置部分。其他步骤可能会用自己的 LLM 配置覆盖此配置。

字段

  • api_key str - 要使用的 OpenAI API 密钥。
  • type openai_chat|azure_openai_chat|openai_embedding|azure_openai_embedding - 要使用的 LLM 类型。
  • model str - 模型名称。
  • max_tokens int - 输出的最大令牌数。
  • request_timeout float - 每个请求的超时时间。
  • api_base str - 要使用的 API 基础 URL。
  • api_version str - API 版本。
  • organization str - 客户端组织。
  • proxy str - 要使用的代理 URL。
  • cognitive_services_endpoint str - 认知服务的 URL 端点。
  • deployment_name str - 要使用的部署名称(Azure)。
  • model_supports_json bool - 模型是否支持 JSON 模式输出。
  • tokens_per_minute int - 设置每分钟令牌的漏桶限流。
  • requests_per_minute int - 设置每分钟请求的漏桶限流。
  • max_retries int - 要使用的最大重试次数。
  • max_retry_wait float - 最大回退时间。
  • sleep_on_rate_limit_recommendation bool - 是否遵循睡眠建议(Azure)。
  • concurrent_requests int - 允许同时打开的请求数量。
  • temperature float - 要使用的温度。
  • top_p float - 要使用的 top-p 值。
  • n int - 要生成的完成数量。

parallelization

字段

  • stagger float - 线程延迟值。
  • num_threads int - 最大工作线程数。

async_mode

asyncio|threaded 要使用的异步模式。可以是 asynciothreaded

embeddings

字段

  • llm (见 LLM 顶级配置)
  • parallelization (见 Parallelization 顶级配置)
  • async_mode (见 Async Mode 顶级配置)
  • batch_size int - 要使用的最大批次大小。
  • batch_max_tokens int - 最大批次令牌数。
  • target required|all - 确定要发出的嵌入集。
  • skip list[str] - 要跳过的嵌入。
  • strategy dict - 完全覆盖文本嵌入策略。

chunks

字段

  • size int - 最大块大小(以令牌为单位)。
  • overlap int - 块重叠(以令牌为单位)。
  • group_by_columns list[str] - 在分块前按字段对文档进行分组。
  • encoding_model str - 要使用的文本编码模型。默认使用顶级编码模型。
  • strategy dict - 完全覆盖分块策略。

cache

字段

  • type file|memory|none|blob - 要使用的缓存类型。默认=file
  • connection_string str - (仅限 blob)Azure 存储连接字符串。
  • container_name str - (仅限 blob)Azure 存储容器名称。
  • base_dir str - 要写入缓存的基目录,相对于根目录。
  • storage_account_blob_url str - 要使用的存储账户 blob URL。

storage

字段

  • type file|memory|blob - 要使用的存储类型。默认=file
  • connection_string str - (仅限 blob)Azure 存储连接字符串。
  • container_name str - (仅限 blob)Azure 存储容器名称。
  • base_dir str - 报告写入的基础目录,相对于根目录。
  • storage_account_blob_url str - 要使用的存储账户 blob URL。

reporting

Fields

  • type file|console|blob - 要使用的报告类型。默认=file
  • connection_string str - (仅限 blob)Azure 存储连接字符串。
  • container_name str - (仅限 blob)Azure 存储容器名称。
  • base_dir str - 报告写入的基础目录,相对于根目录。
  • storage_account_blob_url str - 要使用的存储账户 blob URL。

entity_extraction

Fields

  • llm (参见 LLM 顶级配置)
  • parallelization (参见 Parallelization 顶级配置)
  • async_mode (参见 Async Mode 顶级配置)
  • prompt str - 要使用的提示文件。
  • entity_types list[str] - 要识别的实体类型。
  • max_gleanings int - 要使用的最大采集周期数。
  • encoding_model str - 要使用的文本编码模型。默认情况下,将使用顶级编码模型。
  • strategy dict - 完全覆盖实体提取策略。

summarize_descriptions

Fields

  • llm (参见 LLM 顶级配置)
  • parallelization (参见 Parallelization 顶级配置)
  • async_mode (参见 Async Mode 顶级配置)
  • prompt str - 要使用的提示文件。
  • max_length int - 每次摘要的最大输出令牌数。
  • strategy dict - 完全覆盖摘要描述策略。

claim_extraction

Fields

  • enabled bool - 是否启用声明提取。默认=False
  • llm (参见 LLM 顶级配置)
  • parallelization (参见 Parallelization 顶级配置)
  • async_mode (参见 Async Mode 顶级配置)
  • prompt str - 要使用的提示文件。
  • description str - 描述我们要提取的声明类型。
  • max_gleanings int - 要使用的最大采集周期数。
  • encoding_model str - 要使用的文本编码模型。默认情况下,将使用顶级编码模型。
  • strategy dict - 完全覆盖声明提取策略。

community_reports

Fields

  • llm (参见 LLM 顶级配置)
  • parallelization (参见 Parallelization 顶级配置)
  • async_mode (参见 Async Mode 顶级配置)
  • prompt str - 要使用的提示文件。
  • max_length int - 每个报告的最大输出令牌数。
  • max_input_length int - 生成报告时使用的最大输入令牌数。
  • strategy dict - 完全覆盖社区报告策略。

cluster_graph

Fields

  • max_cluster_size int - 要发出的最大集群大小。
  • strategy dict - 完全覆盖 cluster_graph 策略。

embed_graph

Fields

  • enabled bool - 是否启用图嵌入。
  • num_walks int - node2vec 的行走次数。
  • walk_length int - node2vec 的行走长度。
  • window_size int - node2vec 的窗口大小。
  • iterations int - node2vec 的迭代次数。
  • random_seed int - node2vec 的随机种子。
  • strategy dict - 完全覆盖嵌入图策略。

umap

Fields

  • enabled bool - 是否启用 UMAP 布局。

snapshots

Fields

  • graphml bool - 发出 graphml 快照。
  • raw_entities bool - 发出原始实体快照。
  • top_level_nodes bool - 发出顶级节点快照。

encoding_model

str - 要使用的文本编码模型。默认是 cl100k_base

skip_workflows

list[str] - 要跳过的工作流名称。