agent_eval

生成评估标准

def generate_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
                      task: Task = None,
                      additional_instructions: str = "",
                      max_round=2,
                      use_subcritic: bool = False)

创建一个评估给定任务效用的标准列表。

参数：

llm_config dict 或 bool - llm 推理配置。
task Task - 要评估的任务。
additional_instructions str - 用于标准代理的额外说明。
max_round int - 运行对话的最大轮数。
use_subcritic bool - 是否使用子标准代理生成子标准。

返回值：

list - 评估给定任务效用的 Criterion 对象列表。

量化标准

def quantify_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
                      criteria: List[Criterion] = None,
                      task: Task = None,
                      test_case: str = "",
                      ground_truth: str = "")

使用提供的标准量化系统的性能。

参数：

llm_config dict 或 bool - llm 推理配置。
criteria [Criterion] - 评估给定任务效用的标准列表。
task Task - 要评估的任务。
test_case str - 要评估的测试用例。
ground_truth str - 测试用例的真实值。

返回值：

dict - 一个字典，其中键是标准，值是基于每个标准的接受值的评估性能。

生成评估标准​

量化标准​

生成评估标准

量化标准