agent_eval
生成评估标准
def generate_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
task: Task = None,
additional_instructions: str = "",
max_round=2,
use_subcritic: bool = False)
创建一个评估给定任务效用的标准列表。
参数:
llm_config
dict 或 bool - llm 推理配置。task
Task - 要评估的任务。additional_instructions
str - 用于标准代理的额外说明。max_round
int - 运行对话的 最大轮数。use_subcritic
bool - 是否使用子标准代理生成子标准。
返回值:
list
- 评估给定任务效用的 Criterion 对象列表。
量化标准
def quantify_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
criteria: List[Criterion] = None,
task: Task = None,
test_case: str = "",
ground_truth: str = "")
使用提供的标准量化系统的性能。
参数:
llm_config
dict 或 bool - llm 推理配置。criteria
[Criterion] - 评估给定任务效用的标准列表。task
Task - 要评估的任务。test_case
str - 要评估的测试用例。ground_truth
str - 测试用例的真实值。
返回值:
dict
- 一个字典,其中键是标准,值是基于每个标准的接受值的评估性能。