Skip to main content

agent_eval

生成评估标准

def generate_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
task: Task = None,
additional_instructions: str = "",
max_round=2,
use_subcritic: bool = False)

创建一个评估给定任务效用的标准列表。

参数

  • llm_config dict 或 bool - llm 推理配置。
  • task Task - 要评估的任务。
  • additional_instructions str - 用于标准代理的额外说明。
  • max_round int - 运行对话的最大轮数。
  • use_subcritic bool - 是否使用子标准代理生成子标准。

返回值

  • list - 评估给定任务效用的 Criterion 对象列表。

量化标准

def quantify_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
criteria: List[Criterion] = None,
task: Task = None,
test_case: str = "",
ground_truth: str = "")

使用提供的标准量化系统的性能。

参数

  • llm_config dict 或 bool - llm 推理配置。
  • criteria [Criterion] - 评估给定任务效用的标准列表。
  • task Task - 要评估的任务。
  • test_case str - 要评估的测试用例。
  • ground_truth str - 测试用例的真实值。

返回值

  • dict - 一个字典,其中键是标准,值是基于每个标准的接受值的评估性能。