跳至内容
Ragas
指标
初始化搜索
🚀 快速开始
📚 核心概念
🧪 实验性功能
🛠️ 操作指南
📖 参考文献
❤️ 社区
Ragas
🚀 开始使用
🚀 Get Started
安装
评估你的第一个 LLM 应用
评估一个简单的 RAG
为RAG生成合成测试集
📚 核心概念
📚 Core Concepts
组件
Components
General
General
提示
Evaluation
Evaluation
评估示例
评估数据集
指标
Metrics
概览
可用指标
Available Metrics
Retrieval Augmented Generation
Retrieval Augmented Generation
上下文精确度
上下文召回
上下文实体召回率
噪声敏感性
响应相关性
忠实度
Nvidia Metrics
Nvidia Metrics
答案准确性
上下文相关性
回答的有据性
Agents or Tool Use Cases
Agents or Tool Use Cases
智能体式或工具使用
主题一致性
工具调用准确率
智能体目标准确率
Natural Language Comparison
Natural Language Comparison
事实正确性
语义相似度
Traditional non LLM metrics
Traditional non LLM metrics
传统的NLP指标
非LLM字符串相似度
BLEU 分数
ROUGE 评分
字符串存在性
完全匹配
SQL
SQL
SQL
基于执行的Datacompy评分
SQL 查询等价性
General Purpose
General Purpose
通用指标
方面评论家
简单标准评分
量表式评分
实例特定量规评分
Other Tasks
Other Tasks
摘要
测试数据生成
Test Data Generation
RAG
RAG
为 RAG 生成测试集
KG 大楼
场景生成
Agents or tool use
Agents or tool use
面向智能体或工具使用场景的测试集生成
Feedback Intelligence
反馈洞察
🧪 实验性
🧪 Experimental
教程
Tutorials
提示
检索增强生成
工作流
智能体
核心概念
Core Concepts
指标
数据集
实验
🛠️ 操作指南
🛠️ How-to Guides
自定义
Customizations
General
General
自定义模型
运行配置
缓存
Metrics
Metrics
修改提示
将度量适配到不同语言
编写你自己的指标
编写您自己的指标 - (高级)
Testset Generation
Testset Generation
非英语测试集生成
角色生成
自定义单跳查询
自定义多跳查询
应用
Applications
Metrics
Metrics
成本分析
评估多轮对话
使用 Vertex AI 模型的评估
Testset Generation
Testset Generation
单跳查询测试集
Benchmarking
Benchmarking
对Gemini模型进行基准测试
集成
Integrations
Arize
Amazon Bedrock
Haystack
Griptape
LangChain
LangGraph
LangSmith
LlamaIndex RAG
LlamaIndex 智能体
LlamaStack
R2R
群体
Migrations
Migrations
从 v0.1 到 v0.2
📖 参考文献
📖 References
Core
Core
提示
LLMs
嵌入向量
RunConfig
执行器
缓存
Evaluation
Evaluation
模式
指标
evaluate()
Testset Generation
Testset Generation
模式
图
转换
合成器
生成
集成
❤️ 社区
指标
概述
了解更多关于概述和设计原则
可用指标
了解可用指标及其内部工作原理
Back to top
×