大模型能力迭代越来越快,评测需求也越来越多样化。tronlink下载网:Tekon.app  无论是企业落地 LLM、团队做模型对比,还是开发者验证新能力,都需要一个既灵活又专业的评测系统。AGI-Eval 满足你的所有需求—— 一个基于插件化架构、可扩展、面向工程化的大模型评测框架。它的开发宗旨是“评测不是一套固定流程,而是一套可快速插拔的系统”。

01. AGI-Eval 简介

大模型能力迭代越来越快,评测需求也越来越多样化。无论是企业落地 LLM、团队做模型对比,还是开发者验证新能力,都需要一个既灵活又专业的评测系统。AGI-Eval 满足你的所有需求—— 一个基于插件化架构、可扩展、面向工程化的大模型评测框架。它的开发宗旨是“评测不是一套固定流程,而是一套可快速插拔的系统”。

AGI-Eval 评测框架作为 AGI-Eval 评测社区生态的主要组成部分,肩负模型评测核心任务。在评测效率上,做到灵活支持,提供单机、本地调试、多进程并行等多种运行模式,可根据机器资源自由调整并发,既适合开发者测试插件,也能支撑大规模评测任务。在开发便捷性上,真正做到“按需拼装”,从数据处理到最后的指标计算,每一个都可以被实现成插件,随时扩展、自由组合,不必修改主框架。在评测结果洞察上,AGI-Eval 内置 Web 报告,支持指标统计、模型对比、错误样例查看等能力,让评测不再只是输出一个分数,而是帮助团队理解模型问题、优化模型行为。

02. AGI-Eval 功能前瞻

  • 如果你是模型评测者

无需开发,只要三步,完成评测。

Step1:安装agi-eval

代码语言:JavaScript

自动换行

AI代码解释


git clone https://github.com/AGI-Eval-Official/agi-eval.git cd agi-eval pip install -e .

Step2:配置模型信息

展开

代码语言:JavaScript

自动换行

AI代码解释


# 待评测模型 export API_BASE_URL=http://your-api-endpoint export MODEL_NAME=your-model-name export API_KEY=your-api-key # 打分模型 export SCORE_API_BASE_URL=http://your-api-endpoint export SCORE_MODEL_NAME=your-model-name export SCORE_API_KEY=your-api-key

Step3:启动评测

代码语言:JavaScript

自动换行

AI代码解释


agieval start

目前评测框架已完成主流 20+ 公开数据集的适配(如AIME2024、AIME2025、GPQA……),具体参考:公开数据集列表。

为了提升对推理结果打分的准确性,AGI-Eval专门微调了用于唯一答案类数据集的打分模型AGI-Eval-OA-Judge。agi-eval框架适配的唯一答案类数据集,均采用AGI-Eval-OA-Judge进行打分。为了方便复现打分结果,以及使用打分模型,我们对AGI-Eval-OA-Judge也进行了开源。

  • 如果你是评测开发者

框架可以支持对目前主流数据集进行适配。根据您的需求,可以选择以下两种方式:

  • 适配框架的数据集格式:将您的数据离线转换为框架定义的标准格式(生成题或选择题),即可复用现有的评测流程插件。

  • 适配评测流程:如果你的数据集通过适配框架的格式不能满足,我们也提供了自定义插件和处理流程的方式,来实现自定义的评测流程。

03. AGI-Eval 新功能展望

AGI-Eval的目标是提供大模型评测的一站式服务,未来我们会进一步实现评测框架和评测社区的评测任务的统一管理,主要包括:

  • 一键评测:未来将支持通过框架一键发起对评测社区所支持的评测数据集的评测。

  • 一键托管:支持将本地适配好的数据集一键托管至评测社区。

  • 评测结果统一管理:支持将基于离线评测框架的评测结果及指标上传至评测社区进行统一管理。

  • Agent数据集接入:框架将支持 Agent 数据集的评测。

AGI-Eval 的开源只是一个开始,评测的未来需要我们共同定义。如果你对我们的工作感兴趣,欢迎加入评测社区!一同使用、贡献和完善 AGI-Eval 评测框架。让我们共同努力,构建一个更加完善、公正、透明的大模型评测标准,携手探索人工智能的能力边界,共促 AI 生态的持续繁荣。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐