默认配置模式(使用 JSON/YAML)
默认配置模式可以通过在数据项目根目录下使用 settings.json
或 settings.yml
文件进行配置。如果存在一个 .env
文件与该配置文件一起,那么它将被加载,并且其中定义的环境变量将可用于使用 ${ENV_VAR}
语法在配置文档中进行令牌替换。
例如:
配置部分
input
字段
type
file|blob - 使用的输入类型。默认=file
file_type
text|csv - 要加载的输入数据类型。可以是text
或csv
。默认是text
file_encoding
str - 输入文件的编码。默认是utf-8
file_pattern
str - 匹配输入文件的正则表达式。默认在 csv 模式下是.*\.csv$
,在文本模式下是.*\.txt$
。source_column
str - (仅限 CSV 模式)源列名。timestamp_column
str - (仅限 CSV 模式)时间戳列名。timestamp_format
str - (仅限 CSV 模式)源格式。text_column
str - (仅限 CSV 模式)文本列名。title_column
str - (仅限 CSV 模式)标题列名。document_attribute_columns
list[str] - (仅限 CSV 模式)要包含的额外文档属性。connection_string
str - (仅限 blob)Azure 存储连接字符串。container_name
str - (仅限 blob)Azure 存储容器名称。base_dir
str - 要读取输入的基目录,相对于根目录。storage_account_blob_url
str - 要使用的存储账户 blob URL。
llm
这是基础 LLM 配置部分。其他步骤可能会用自己的 LLM 配置覆盖此配置。
字段
api_key
str - 要使用的 OpenAI API 密钥。type
openai_chat|azure_openai_chat|openai_embedding|azure_openai_embedding - 要使用的 LLM 类型。model
str - 模型名称。max_tokens
int - 输出的最大令牌数。request_timeout
float - 每个请求的超时时间。api_base
str - 要使用的 API 基础 URL。api_version
str - API 版本。organization
str - 客户端组织。proxy
str - 要使用的代理 URL。cognitive_services_endpoint
str - 认知服务的 URL 端点。deployment_name
str - 要使用的部署名称(Azure)。model_supports_json
bool - 模型是否支持 JSON 模式输出。tokens_per_minute
int - 设置每分钟令牌的漏桶限流。requests_per_minute
int - 设置每分钟请求的漏桶限流。max_retries
int - 要使用的最大重试次数。max_retry_wait
float - 最大回退时间。sleep_on_rate_limit_recommendation
bool - 是否遵循睡眠建议(Azure)。concurrent_requests
int - 允许同时打开的请求数量。temperature
float - 要使用的温度。top_p
float - 要使用的 top-p 值。n
int - 要生成的完成数量。
parallelization
字段
stagger
float - 线程延迟值。num_threads
int - 最大工作线程数。
async_mode
asyncio|threaded 要使用的异步模式。可以是 asyncio
或 threaded
。
embeddings
字段
llm
(见 LLM 顶级配置)parallelization
(见 Parallelization 顶级配置)async_mode
(见 Async Mode 顶级配置)batch_size
int - 要使用的最大批次大小。batch_max_tokens
int - 最大批次令牌数。target
required|all - 确定要发出的嵌入集。skip
list[str] - 要跳过的嵌入。strategy
dict - 完全覆盖文本嵌入策略。
chunks
字段
size
int - 最大块大小(以令牌为单位)。overlap
int - 块重叠(以令牌为单位)。group_by_columns
list[str] - 在分块前按字段对文档进行分组。encoding_model
str - 要使用的文本编码模型。默认使用顶级编码模型。strategy
dict - 完全覆盖分块策略。
cache
字段
type
file|memory|none|blob - 要使用的缓存类型。默认=file
connection_string
str - (仅限 blob)Azure 存储连接字符串。container_name
str - (仅限 blob)Azure 存储容器名称。base_dir
str - 要写入缓存的基目录,相对于根目录。storage_account_blob_url
str - 要使用的存储账户 blob URL。
storage
字段
type
file|memory|blob - 要使用的存储类型。默认=file
connection_string
str - (仅限 blob)Azure 存储连接字符串。container_name
str - (仅限 blob)Azure 存储容器名称。base_dir
str - 报告写入的基础目录,相对于根目录。storage_account_blob_url
str - 要使用的存储账户 blob URL。
reporting
Fields
type
file|console|blob - 要使用的报告类型。默认=file
connection_string
str - (仅限 blob)Azure 存储连接字符串。container_name
str - (仅限 blob)Azure 存储容器名称。base_dir
str - 报告写入的基础目录,相对于根目录。storage_account_blob_url
str - 要使用的存储账户 blob URL。
entity_extraction
Fields
llm
(参见 LLM 顶级配置)parallelization
(参见 Parallelization 顶级配置)async_mode
(参见 Async Mode 顶级配置)prompt
str - 要使用的提示文件。entity_types
list[str] - 要识别的实体类型。max_gleanings
int - 要使用的最大采集周期数。encoding_model
str - 要使用的文本编码模型。默认情况下,将使用顶级编码模型。strategy
dict - 完全覆盖实体提取策略。
summarize_descriptions
Fields
llm
(参见 LLM 顶级配置)parallelization
(参见 Parallelization 顶级配置)async_mode
(参见 Async Mode 顶级配置)prompt
str - 要使用的提示文件。max_length
int - 每次摘要的最大输出令牌数。strategy
dict - 完全覆盖摘要描述策略。
claim_extraction
Fields
enabled
bool - 是否启用声明提取。默认=Falsellm
(参见 LLM 顶级配置)parallelization
(参见 Parallelization 顶级配置)async_mode
(参见 Async Mode 顶级配置)prompt
str - 要使用的提示文件。description
str - 描述我们要提取的声明类型。max_gleanings
int - 要使用的最大采集周期数。encoding_model
str - 要使用的文本编码模型。默认情况下,将使用顶级编码模型。strategy
dict - 完全覆盖声明提取策略。
community_reports
Fields
llm
(参见 LLM 顶级配置)parallelization
(参见 Parallelization 顶级配置)async_mode
(参见 Async Mode 顶级配置)prompt
str - 要使用的提示文件。max_length
int - 每个报告的最大输出令牌数。max_input_length
int - 生成报告时使用的最大输入令牌数。strategy
dict - 完全覆盖社区报告策略。
cluster_graph
Fields
max_cluster_size
int - 要发出的最大集群大小。strategy
dict - 完全覆盖 cluster_graph 策略。
embed_graph
Fields
enabled
bool - 是否启用图嵌入。num_walks
int - node2vec 的行走次数。walk_length
int - node2vec 的行走长度。window_size
int - node2vec 的窗口大小。iterations
int - node2vec 的迭代次数。random_seed
int - node2vec 的随机种子。strategy
dict - 完全覆盖嵌入图策略。
umap
Fields
enabled
bool - 是否启用 UMAP 布局。
snapshots
Fields
graphml
bool - 发出 graphml 快照。raw_entities
bool - 发出原始实体快照。top_level_nodes
bool - 发出顶级节点快照。
encoding_model
str - 要使用的文本编码模型。默认是 cl100k_base
。
skip_workflows
list[str] - 要跳过的工作流名称。