【智能超算大赛】做了一个RAG自动化评测神器“灵鉴RAGEval”

正在参加由与联合举办的。向大家介绍我的参赛作品——，一个开箱即用的RAG系统自动化评估工具。RAG（检索增强生成）技术无疑是当下大模型领域最火热的应用范式，但如何科学、高效地评估一个RAG系统的好坏，却成了一个普遍的痛点。正是为了解决这个问题而生。如果我的项目能给您带来一点启发或帮助，

陌陌623

934人浏览 · 2025-08-27 19:08:12

陌陌623 · 2025-08-27 19:08:12 发布

作品部署地址

https://www.scnet.cn/ui/aihub/studios/momomo623/RAGEval

正在参加由 OpenI启智社区 与 国家超算互联网平台 联合举办的 “智能超算”创新应用挑战赛。向大家介绍我的参赛作品——“灵鉴 RAGEval”，一个开箱即用的RAG系统自动化评估工具。

RAG（检索增强生成）技术无疑是当下大模型领域最火热的应用范式，但如何科学、高效地评估一个RAG系统的好坏，却成了一个普遍的痛点。“灵鉴 RAGEval” 正是为了解决这个问题而生。

如果我的项目能给您带来一点启发或帮助，恳请您访问我的作品页面

依托“国家超算互联网平台”

整个开发和部署流程完全依托于大赛提供的国家超算互联网平台，体验非常流畅：

环境搭建：首先，在平台的 Notebook服务 中创建了一个容器实例，并选择的国产异构加速卡AI（DCU） 作为计算资源。
服务部署：项目后端采用 FastAPI 框架。利用平台强大的自定义服务能力，轻松地将后端应用端口转发，生成一个公网可以访问的API地址。
应用发布：最后一步，也是最关键的一步，我将项目的前端页面与后端API打包，作为一个完整的应用发布到平台的 AI社区。平台会自动为应用构建服务并生成一个唯一的URL，让所有人都能方便地访问和体验。

灵鉴 RAGEval：在解决什么问题？

随着RAG应用的爆发，我们发现开发者普遍面临以下难题：

评测数据难获取：高质量的问答对（QA Pair）是评测的基础，但制作成本高昂。
评测维度不清晰：应该从哪些方面评估RAG？准确性、相关性、还是响应速度？
评测过程繁琐：手动测试耗时耗力，且主观性强，难以量化对比。

灵鉴（RAGEval） 就是一款专业的RAG系统评测工具，它为AI应用开发者提供从数据准备、自动评测到报告生成的全流程解决方案，让RAG评测变得简单、高效、标准化。

核心功能一览

1. 🤖 AI智能评测数据生成
告别手动制作数据集的烦恼！只需上传你的知识库文档，RAGEval就能自动解析，并并行调用大模型，批量生成高质量的问答对，为评测打下坚实基础。

在这里插入图片描述

（功能演示：支持多种数据格式导入和批量生成）

2. 📊 全方位RAG系统精度评测
我们从多个维度对RAG系统的回答质量进行评估，包括准确性、相关性、完整性等。借助大模型的理解能力，RAGEval可以实现AI自动化评分和深度分析，并支持多个RAG系统进行横向对比。

在这里插入图片描述
（功能演示：多维度精度评测结果一目了然）

3. ⚡ 精细化RAG系统性能评测
性能是衡量RAG系统好坏的关键。RAGEval提供精细化的性能测试，包括并发测试、响应延迟
、首Token时间、吞吐量（Token/s）等关键指标，助你全面掌握系统的性能表现。

在这里插入图片描述

（功能演示：详细的性能指标分析）

系统架构与技术栈

系统架构和技术栈。

系统架构图：

技术栈：

前端: React 18 + TypeScript + Ant Design + TailwindCSS
后端: FastAPI + Python 3.9+ + SQLAlchemy
部署: Docker + Docker Compose + Caddy + PostgreSQL

激动人心的体验环节与拉票时间！

百闻不如一见！欢迎大家亲自体验“灵鉴RAGEval”的魅力。

🚀 作品部署地址

https://www.scnet.cn/ui/aihub/studios/momomo623/RAGEval

您也可以访问我的备用演示站，并使用测试账号登录体验：

🌐 备用测试网址：https://rag-eval.chongwenz.cn

👤 测试账号：t1@rag.com / 1

🙏 请为我投上宝贵的一票！

如果觉得我的项目“灵鉴RAGEval”对您有帮助，或者您认可这个方向的价值，恳请您抽出宝贵的几分钟时间，访问上方的作品部署地址，在页面为我点亮星星或投上一票！

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运

2048 AI社区

上下文工程驱动智能体向自我进化认知架构

2048 AI社区

AI生态系统构建：架构师如何整合开源与商业工具？

AI生态系统的核心价值在于工具链的协同效应——开源工具提供模块化创新，商业工具保障可靠性与服务；架构师的职责不是“选边站”，而是通过系统化整合让两者的价值叠加。本文从概念基础、理论框架、架构设计、实现机制到实际应用，全方位拆解整合逻辑：用第一性原理推导整合的价值函数，用分层架构模型落地组件交互，用生产级代码示例验证可行性，用真实案例展现ROI。最终给出架构师的战略工具箱：如何平衡灵活性与稳定性、如