Ragas：构建数据驱动的 LLM 应用评估体系

无论你是 LLM 开发者、RAG 系统构建者、Agent 架构设计者，还是数据科学家，Ragas 都能让评估不再依靠“感觉”和随机抽查，而是建立起可长期迭代优化的完整体系。本文将深入介绍 Ragas 的设计理念、核心能力、典型场景、技术架构及使用方式，帮助你建立一套完整的 LLM 评估认知体系。

cooldream2009

697人浏览 · 2025-12-01 07:38:07

cooldream2009 · 2025-12-01 07:38:07 发布

前言

随着大型语言模型（LLM）在搜索增强生成（RAG）、智能问答、文本生成、智能体（Agent）等领域迅速普及，如何评价这些系统的质量成为越来越关键的问题。传统的评估方式多依赖人工判断或基本的相似度指标，例如 BLEU、ROUGE 或简单的关键词匹配。然而，现代 LLM 的能力远超形式化语言输出，它们具备推理能力、理解能力以及长文本依赖处理能力，这意味着评估体系必须足够智能，才能准确反映真实性能。

Ragas 正是在这一背景下诞生的。作为一款围绕 LLM 应用的系统化评估框架，它通过“实验驱动 + LLM 辅助指标 + 自动化数据管理”，帮助开发者用标准化、可复现、数据驱动的方式持续监控和提升模型表现。无论你是 LLM 开发者、RAG 系统构建者、Agent 架构设计者，还是数据科学家，Ragas 都能让评估不再依靠“感觉”和随机抽查，而是建立起可长期迭代优化的完整体系。

本文将深入介绍 Ragas 的设计理念、核心能力、典型场景、技术架构及使用方式，帮助你建立一套完整的 LLM 评估认知体系。

在这里插入图片描述

1 Ragas 评估体系概览

1.1 为什么传统评估方式无法满足 LLM 应用需求？

在传统 NLP 系统中，模型往往围绕结构化文本、标签预测或简单生成任务，因此 BLEU、F1、ROUGE 一类的“结果相似度指标”即可满足需要。然而对于 LLM 应用来说，这些指标存在明显不足：

无法评估推理链条
LLM 的核心能力之一是理解语义并进行推理，而传统指标无法判断推理过程是否合理。
无法评估真实世界相关性
例如 RAG 中的检索内容是否合理、模型是否基于正确证据输出，这类场景需要比相似度更智能的评估方式。
难以处理开放式回答
LLM 输出往往是自由文本，甚至表达方式依语境大幅变化，无法用简单文本对齐度判断好坏。
人工评估成本高且不可扩展
越复杂的 LLM 系统越难人工判断是否正确，而且结论常常主观。

为了应对这些问题，LLM 评估需要具备以下特性：

智能化（LLM 参与评估）
自动化（可批量运行）
可复现（实验和指标可重复）
可扩展（自定义指标）
系统化（评估→改进→验证循环）

Ragas 正是为解决上述痛点而设计。

1.2 Ragas 的设计理念

Ragas 的核心理念可以总结为以下三个支柱：

评估即实验（Experiment-first）
每次系统变更（Prompt 调整、检索算法更新、模型替换等）都应该伴随一次标准化评估，并记录为一次实验。
这让开发者能够对比不同方案，找到真正有效的优化。
LLM 驱动指标（LLM-based Metrics）
Ragas 将 LLM 作为评估者，用自然语言定义指标，并由 LLM 判断表现。例如“回答是否忠实于知识库？”“摘要是否完整？”
自动化评估循环（Evaluation Loop）
数据收集 → 指标计算 → 报告输出 → iter 改进，形成闭环，实现持续优化。

表 1 对比了传统评估方法与 Ragas 的区别：

维度	传统评估方法	Ragas 智能评估
指标来源	人工编写或简单算法	LLM + 自定义自然语言描述
处理复杂任务	难处理推理、多步骤任务	能评估推理、相关性、一致性
成本	人工成本高	自动化运行
批量评估	困难	原生支持
扩展性	低	可自定义指标和流程
是否可复现	多为一次性评估	完整实验管理体系

Ragas 不只是一个工具库，而是一个完整评估体系。

2 Ragas 的核心能力

2.1 实验优先：构建可持续改进的评估循环

Ragas 将每次评估视为一次实验（Experiment）。一个实验包括：

输入数据集
指标列表
LLM 配置
实验结果及评估报告

通过这种方式，开发者能够：

清晰对比版本差异
快速查看优化是否有效
将评估流程融入 CI/CD
将 LLM 系统演进过程标准化

例如，你可以通过一次实验判断：

是否更换模型有改进？
新的向量库是否提高检索质量？
Prompt 调整是否提升鲁棒性？

Ragas 让这些判断不再依赖直觉，而是基于数据。

2.2 丰富的 Ragas 指标体系

Ragas 提供大量开箱即用的指标，用于评估 RAG、生成式问答、摘要、推理等场景。

这些指标通常属于以下类别：

指标类型	示例	说明
正确性（Correctness）	Faithfulness	回答是否基于正确证据
相关性（Relevance）	Context Relevance	检索内容是否与问题相关
完整性（Completeness）	Answer Completeness	回答是否覆盖关键信息
一致性（Consistency）	Semantic Consistency	回答是否逻辑统一
信息量（Informativeness）	Aspect Coverage	针对摘要和分析场景

所有指标都可以定制。例如针对金融摘要，你可以创建“数字准确性指标”；针对医疗应用，可以创建“风险提示是否提供”指标。

你只需用自然语言定义 metric，Ragas 会由 LLM 负责判断。

2.3 自定义指标：适应任何业务场景

Ragas 的指标创建方式非常灵活：

用自然语言描述指标含义
选择 LLM 作为评估者
定义输入结构（如 user_input、response、retrieved_docs）

例如，一个自定义摘要准确度指标：

metric = AspectCritic(
    name="summary_accuracy",
    definition="验证摘要是否准确并包含关键信息。",
    llm=llm
)

整个定义过程无需复杂规则或脚本，这也是它能广泛适应业务需求的关键。

2.4 易于集成：支持主流框架与可观测性系统

Ragas 能轻松融入现有工作流：

LangChain
LlamaIndex
OpenAI、Anthropic、Azure OpenAI
Pinecone、Milvus 等向量库
各类 observability 平台（如 OpenTelemetry）

无需大规模改造即可接入。

2.5 测试数据集自动生成

当你没有测试集时，Ragas 可以帮助你自动生成：

多样化用户 queries
边界情况输入
高难度 reasoning 任务
知识库依赖任务数据

Ragas 利用 LLM 自动构造高质量数据集，让评估流程不再受限于人工构造样例的成本。

2.6 构建完整反馈循环（Evaluation Loop）

Ragas 支持从生产环境实时采集数据，并将其自动转化为评估数据集，形成：

采集数据
运行评估
输出报告
改进模型
再次评估

这是一条真正意义上的智能系统自我进化路径。

3 使用 Ragas 评估 LLM 应用

3.1 安装方式

通过 PyPI：

pip install ragas

通过源码：

pip install git+https://github.com/vibrantlabsai/ragas

3.2 使用 quickstart 模板启动完整评估项目

列出可用模板：

ragas quickstart

创建 RAG 评估项目：

ragas quickstart rag_eval

指定目录：

ragas quickstart rag_eval -o ./my-project

当前模板包括：

rag_eval（RAG 系统评估）

即将上线：

agent_evals
benchmark_llm
prompt_evals
workflow_eval

3.3 示例：评估摘要准确性

以下示例展示如何评估 LLM 生成的摘要是否准确：

import asyncio
from ragas.metrics.collections import AspectCritic
from ragas.llms import llm_factory

llm = llm_factory("gpt-4o")

metric = AspectCritic(
    name="summary_accuracy",
    definition="验证摘要是否准确并包含关键信息。",
    llm=llm
)

test_data = {
    "user_input": "总结给定文本\n该公司报告称，在亚洲市场强劲表现的推动下，2024 年第三季度业绩增长了 8%。该地区的销售额对整体增长做出了显著贡献。分析师将这一成功归功于战略营销和产品本地化。预计亚洲市场的积极趋势将持续到下一季度。",
    "response": "该公司在 2024 年第三季度实现了 8% 的增长，这主要归功于有效的营销策略和产品调整，预计下一季度将继续增长。",
}

score = await metric.ascore(
    user_input=test_data["user_input"],
    response=test_data["response"]
)

print(f"得分：{score.value}")
print(f"原因：{score.reason}")