使用 TruLens 进行评估和跟踪#
本页面介绍如何使用 TruLens 来评估和跟踪基于 Llama-Index 构建的 LLM 应用程序。
什么是 TruLens?#
TruLens 是一个开源软件包,为基于大型语言模型(LLM)的应用程序提供仪器化和评估工具。这包括对相关性、情感等反馈函数的评估,以及包括成本和延迟在内的深入追踪。
在您迭代 LLM 应用程序的新版本时,您可以比较它们在您设置的所有不同质量指标上的性能。您还可以查看记录级别的评估,并探索每条记录的应用程序元数据。
安装和设置#
添加 TruLens 很简单,只需从 pypi 安装!
pip install trulens-eval
from trulens_eval import TruLlama