根据tronlink创建步骤评测AGI-Eval框架开源

AGI-Eval是一款基于插件化架构的大模型评测框架，专为快速迭代的大模型能力评估需求设计。它提供灵活可扩展的评测系统，支持单机调试、多进程并行等多种运行模式，并内置Web报告功能实现指标统计和模型对比。该框架已完成20+公开数据集适配，提供标准化评测流程和自定义插件开发能力。未来计划实现评测任务统一管理、Agent数据集接入等功能，旨在构建完善的大模型评测标准。开源项目欢迎开发者共同参与，推动A

百***8101

515人浏览 · 2025-11-25 14:42:07

百***8101 · 2025-11-25 14:42:07 发布

大模型能力迭代越来越快，评测需求也越来越多样化。tronlink下载网：Tekon.app 无论是企业落地 LLM、团队做模型对比，还是开发者验证新能力，都需要一个既灵活又专业的评测系统。AGI-Eval 满足你的所有需求—— 一个基于插件化架构、可扩展、面向工程化的大模型评测框架。它的开发宗旨是“评测不是一套固定流程，而是一套可快速插拔的系统”。

01. AGI-Eval 简介

大模型能力迭代越来越快，评测需求也越来越多样化。无论是企业落地 LLM、团队做模型对比，还是开发者验证新能力，都需要一个既灵活又专业的评测系统。AGI-Eval 满足你的所有需求—— 一个基于插件化架构、可扩展、面向工程化的大模型评测框架。它的开发宗旨是“评测不是一套固定流程，而是一套可快速插拔的系统”。

AGI-Eval 评测框架作为 AGI-Eval 评测社区生态的主要组成部分，肩负模型评测核心任务。在评测效率上，做到灵活支持，提供单机、本地调试、多进程并行等多种运行模式，可根据机器资源自由调整并发，既适合开发者测试插件，也能支撑大规模评测任务。在开发便捷性上，真正做到“按需拼装”，从数据处理到最后的指标计算，每一个都可以被实现成插件，随时扩展、自由组合，不必修改主框架。在评测结果洞察上，AGI-Eval 内置 Web 报告，支持指标统计、模型对比、错误样例查看等能力，让评测不再只是输出一个分数，而是帮助团队理解模型问题、优化模型行为。

02. AGI-Eval 功能前瞻

如果你是模型评测者

无需开发，只要三步，完成评测。

Step1：安装agi-eval

代码语言：JavaScript

自动换行

AI代码解释

git clone https://github.com/AGI-Eval-Official/agi-eval.git cd agi-eval pip install -e .

Step2：配置模型信息

展开

代码语言：JavaScript

自动换行

AI代码解释

# 待评测模型 export API_BASE_URL=http://your-api-endpoint export MODEL_NAME=your-model-name export API_KEY=your-api-key # 打分模型 export SCORE_API_BASE_URL=http://your-api-endpoint export SCORE_MODEL_NAME=your-model-name export SCORE_API_KEY=your-api-key

Step3：启动评测

代码语言：JavaScript

自动换行

AI代码解释

agieval start

目前评测框架已完成主流 20+ 公开数据集的适配（如AIME2024、AIME2025、GPQA……），具体参考：公开数据集列表。

为了提升对推理结果打分的准确性，AGI-Eval专门微调了用于唯一答案类数据集的打分模型AGI-Eval-OA-Judge。agi-eval框架适配的唯一答案类数据集，均采用AGI-Eval-OA-Judge进行打分。为了方便复现打分结果，以及使用打分模型，我们对AGI-Eval-OA-Judge也进行了开源。