Correctness

评估模块。

CorrectnessEvaluator #

Bases: BaseEvaluator

正确性评估器。

评估问答系统的正确性。该评估器依赖于提供“参考”答案，以及查询字符串和响应字符串。

它输出一个介于1和5之间的分数，其中1最差，5最佳，以及得分的理由。通过被定义为得分大于或等于给定的阈值。

Parameters:

Name	Type	Description	Default
`service_context`	`Optional[ServiceContext]`	服务上下文。	`None`
`eval_template`	`Optional[Union[BasePromptTemplate, str]]`	评估提示的模板。	`None`
`score_threshold`	`float`	通过评估的数值阈值，默认为4.0。	`4.0`

Source code in llama_index/core/evaluation/correctness.py

class CorrectnessEvaluator(BaseEvaluator):
    """正确性评估器。

评估问答系统的正确性。
该评估器依赖于提供“参考”答案，以及查询字符串和响应字符串。

它输出一个介于1和5之间的分数，其中1最差，5最佳，以及得分的理由。
通过被定义为得分大于或等于给定的阈值。

Args:
    service_context (Optional[ServiceContext]): 服务上下文。
    eval_template (Optional[Union[BasePromptTemplate, str]]):
        评估提示的模板。
    score_threshold (float): 通过评估的数值阈值，默认为4.0。"""

    def __init__(
        self,
        llm: Optional[LLM] = None,
        eval_template: Optional[Union[BasePromptTemplate, str]] = None,
        score_threshold: float = 4.0,
        # deprecated
        service_context: Optional[ServiceContext] = None,
        parser_function: Callable[
            [str], Tuple[Optional[float], Optional[str]]
        ] = default_parser,
    ) -> None:
        self._llm = llm or llm_from_settings_or_context(Settings, service_context)

        self._eval_template: BasePromptTemplate
        if isinstance(eval_template, str):
            self._eval_template = PromptTemplate(eval_template)
        else:
            self._eval_template = eval_template or DEFAULT_EVAL_TEMPLATE

        self._score_threshold = score_threshold
        self.parser_function = parser_function

    def _get_prompts(self) -> PromptDictType:
        """获取提示。"""
        return {
            "eval_template": self._eval_template,
        }

    def _update_prompts(self, prompts: PromptDictType) -> None:
        """更新提示。"""
        if "eval_template" in prompts:
            self._eval_template = prompts["eval_template"]

    async def aevaluate(
        self,
        query: Optional[str] = None,
        response: Optional[str] = None,
        contexts: Optional[Sequence[str]] = None,
        reference: Optional[str] = None,
        sleep_time_in_seconds: int = 0,
        **kwargs: Any,
    ) -> EvaluationResult:
        del kwargs  # Unused
        del contexts  # Unused

        await asyncio.sleep(sleep_time_in_seconds)

        if query is None or response is None:
            raise ValueError("query, and response must be provided")

        eval_response = await self._llm.apredict(
            prompt=self._eval_template,
            query=query,
            generated_answer=response,
            reference_answer=reference or "(NO REFERENCE ANSWER SUPPLIED)",
        )

        # Use the parser function
        score, reasoning = self.parser_function(eval_response)

        return EvaluationResult(
            query=query,
            response=response,
            passing=score >= self._score_threshold if score is not None else None,
            score=score,
            feedback=reasoning,
        )