跳至内容

Ragas 办公时间 - 如果您在为您的 AI 应用设置 Evals 时需要帮助，请在此注册我们的办公时间 here。

Ragas

指标

初始化搜索

🚀 快速开始
📚 核心概念
🧪 实验性功能
🛠️ 操作指南
📖 参考文献
❤️ 社区

Ragas

🚀 开始使用
🚀 Get Started
📚 核心概念
📚 Core Concepts
- 组件
  Components
  - General
    General
    
    提示
  - Evaluation
    Evaluation
    
    评估示例
    
    评估数据集
- 指标
  Metrics
  - 概览
  - 可用指标
    
    Available Metrics
    
    Retrieval Augmented Generation
    Retrieval Augmented Generation
    
    上下文精确度
    
    上下文召回
    
    上下文实体召回率
    
    噪声敏感性
    
    响应相关性
    
    忠实度
    
    Nvidia Metrics
    Nvidia Metrics
    
    答案准确性
    
    上下文相关性
    
    回答的有据性
    
    Agents or Tool Use Cases
    Agents or Tool Use Cases
    
    智能体式或工具使用
    
    主题一致性
    
    工具调用准确率
    
    智能体目标准确率
    
    Natural Language Comparison
    Natural Language Comparison
    
    事实正确性
    
    语义相似度
    
    Traditional non LLM metrics
    Traditional non LLM metrics
    
    传统的NLP指标
    
    非LLM字符串相似度
    
    BLEU 分数
    
    ROUGE 评分
    
    字符串存在性
    
    完全匹配
    
    SQL
    SQL
    
    SQL
    
    基于执行的Datacompy评分
    
    SQL 查询等价性
    
    General Purpose
    General Purpose
    
    通用指标
    
    方面评论家
    
    简单标准评分
    
    量表式评分
    
    实例特定量规评分
    
    Other Tasks
    Other Tasks
    
    摘要
- 测试数据生成
  Test Data Generation
  - RAG
    RAG
    
    为 RAG 生成测试集
    
    KG 大楼
    
    场景生成
  - Agents or tool use
    Agents or tool use
    
    面向智能体或工具使用场景的测试集生成
- Feedback Intelligence
  反馈洞察
🧪 实验性
🧪 Experimental
- 教程
  Tutorials
- 核心概念
  Core Concepts
  - 指标
  - 数据集
  - 实验
🛠️ 操作指南
🛠️ How-to Guides
- 自定义
  Customizations
  - General
    General
    
    自定义模型
    
    运行配置
    
    缓存
  - Metrics
    Metrics
    
    修改提示
    
    将度量适配到不同语言
    
    编写你自己的指标
    
    编写您自己的指标 - （高级）
  - Testset Generation
    Testset Generation
    
    非英语测试集生成
    
    角色生成
    
    自定义单跳查询
    
    自定义多跳查询
- 应用
  Applications
  - Metrics
    Metrics
    
    成本分析
    
    评估多轮对话
    
    使用 Vertex AI 模型的评估
  - Testset Generation
    Testset Generation
    
    单跳查询测试集
  - Benchmarking
    Benchmarking
    
    对Gemini模型进行基准测试
- 集成
  Integrations
  - Arize
  - Amazon Bedrock
  - Haystack
  - Griptape
  - LangChain
  - LangGraph
  - LangSmith
  - LlamaIndex RAG
  - LlamaIndex 智能体
  - LlamaStack
  - R2R
  - 群体
- Migrations
  Migrations
  - 从 v0.1 到 v0.2
📖 参考文献
📖 References
- Core
  Core
  - 提示
  - LLMs
  - 嵌入向量
  - RunConfig
  - 执行器
  - 缓存
- Evaluation
  Evaluation
  - 模式
  - 指标
  - evaluate()
- Testset Generation
  Testset Generation
  - 模式
  - 图
  - 转换
  - 合成器
  - 生成
- 集成
❤️ 社区

指标

概述了解更多关于概述和设计原则
可用指标 了解可用指标及其内部工作原理

May 14, 2025 May 14, 2025 GitHub

Made with Material for MkDocs