【MLE】Benchmark 总结

arxiv:code:简介Meta 推出的 MLGym 框架及配套基准 MLGym-Bench，为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境，MLGym 支持强化学习等算法对代理的训练，其模块化设计涵盖Agent、环境、数据集和任务四大核心组件，允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建

辰阳星宇

951人浏览 · 2026-01-21 14:34:21

辰阳星宇 · 2026-01-21 14:34:21 发布

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

arxiv: https://arxiv.org/abs/2502.14499
code: https://github.com/facebookresearch/MLGym?tab=readme-ov-file
详情介绍：https://blog.csdn.net/qq_41094332/article/details/157214262?sharetype=blogdetail&sharerId=157214262&sharerefer=PC&sharesource=qq_41094332&spm=1011.2480.3001.8118

简介
Meta 推出的 MLGym 框架及配套基准 MLGym-Bench，为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境，MLGym 支持强化学习等算法对代理的训练，其模块化设计涵盖Agent、环境、数据集和任务四大核心组件，允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务，共13个跨领域的开放式任务，覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时，对性能和开销进行了多维度评价。
特点
1. 较为权威，主要考察5类任务，13个机器学习建模问题。
2. 开源了MLGym和MLGy-Bench：
  （1）MLGym：提供了解耦合的评测框架，具有智能体、环境、数据集和任务四个组件。可自定义这四个组件中的内容。默认智能体为SWE-Agent。
  （2）MLGy-Bech：具有数据科学、博弈论、计算机视觉、自然语言处理和强化学习场景任务。
3. 适用于考察研究能力和机器学习建模能力的任务。

MLE-BENCH: EVALUATING MACHINE LEARNING AGENTS ON MACHINE LEARNING ENGINEERING

arxiv: https://arxiv.org/pdf/2410.07095
code: https://github.com/openai/mle-bench/

简介
OpenAI针对mle任务的评估数据集。基准选取了75个来自Kaggle竞赛的数据科学问题（涵盖图像分类、文本分类、回归等），重点考查训练模型、准备数据、实验执行等工程技能。支持端到端评测。代理需阅读任务描述、编写和运行Python代码、生成结果，整个流程模拟真实数据科学竞赛场景。
特点
1. 较为权威，主要解决Kaggle上机器学习建模问题。
2. 迭代一次速度太慢。官方要求：
  （1）75个任务，每个任务用至少 3 个种子重复每个评估，并将 Any Medal （%）分数报告为平均值±平均值的一个标准误差。
  （2）每个任务运行时间： 24 小时。计算：36 个 vCPU，具有 440GB RAM 和 1 个 24GB A10 GPU。
  （3）数据量：3.3TB
3. 有一个精简版，22任务，总数据量158GB。
4. 最好的分值在18%左右，刷榜提分空间好。

MLRC-BENCH: Can Language Agents Solve Machine Learning Research Challenges?

arxiv: https://readpaper.com/pdf-annotate/note?pdfId=2301067285072758272&noteId=2830378885131194112
code: https://github.com/snap-stanford/MLAgentBench/tree/main

简介
旨在评估LLM代理在机器学习前沿研究问题上的解决能力。它从顶级ML会议的竞赛中选取7个问题（例如LLM模型合并、模型后门触发恢复、时序动作定位、气象预测、机器遗忘、推荐系统、跨域元学习等），这些问题都需要创新方法和深入实验。该基准采用严格的客观度量，评估代理提出并实现新方法的效果。支持端到端评测。代理从分析问题、生成和执行代码，到输出最终提交文件全流程执行。自动评分代码会根据任务规则给出分数，代理最终得分与人类竞赛榜单比较。
特点
1. 主要解决顶级ML会议中的竞赛问题，选取的题目较难。采用近期的竞赛减少了数据泄露的风险，除了考察建模能力，还可以考察创新能力。
2. 在hf上有Leadborad，可在公开榜单上排名比较。
3. 数据量有点少，只有7个赛题，涵盖资源有限。适合考察Agent在解决难题里的表现情况。
4. 最好的分值在9.3%，刷榜提分空间好。

ML-BENCH: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code

arxiv: https://arxiv.org/pdf/2311.09835
code: https://github.com/gersteinlab/ML-bench

简介
评估LLM利用现有开源库完成机器学习任务的能力基准覆盖18个著名ML相关GitHub仓库，共9,641个任务示例包括两个基准：ML-LLM-Bench（在已配置环境中只评估文本到代码的生成质量）和ML-Agent-Bench（让代理自主加载环境、运行和测试代码）。在ML-Agent-Bench中，代理通过迭代执行和调试来完成任务。
特点
1. 主要考察Agent结合代码仓库里的知识去进行机器学习解决问题。但主要体现的是对已有代码仓库的理解和应用，缺乏对开放性机器学习建模问题的考察。
2. 涵盖代码仓库主要为多start的18个机器学习代码仓库。涵盖问题多，共9641个。
3. 具有两个基准：
  （1）ML-LLM-Bench评估端到端的llm生成代码能力，具有完整环境。
  （2）ML-Agent-Bench评估智能体迭代执行和调试能力，不具有完整环境，需要自己安装库。
4. 最好的分值在50%左右，刷榜提分空间好。

DSBENCH: HOW FAR ARE DATA SCIENCE AGENTS FROM BECOMING DATA SCIENCE EXPERTS?

arxiv: https://arxiv.org/pdf/2409.07703
code: https://github.com/liqiangjing/dsbench

简介
用于评估数据科学代理的能力。它包含466个数据分析任务和74个数据建模任务，任务来源于Eloquence（ModelOff平台）和Kaggle竞赛，模拟了真实世界的数据科学工作流程。包含数据清洗、可视化分析、统计建模、机器学习训练等多种典型任务，涉及多表关联和大型数据集。支持端到端评估。每个任务从输入原始数据到输出预测或分析报告，代理全程独立完成。评估指标包括准确率、RPG（相对性能差距）等。
特点
1. 主要考察金融相关的数据科学和Kaggle上的机器学习建模问题。
2. 涵盖数据量广，466个数据分析问题，74个机器学习建模问题。
3. 并不都是机器学习建模问题，存在一部分是QA问答问题。问题格式为选择题或者填空题。可能会存在数据泄漏情况
4. 最好的分值在34%，刷榜提分空间好。

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

简介
首个专门评测 Research Agent 在机器学习任务上能力的Benchmark，共有13个任务，分别由经典任务、经典Kaggle任务、Kaggle挑战任务、近期研究任务和代码改进任务组成。构建了一个ReAct架构的Agent，在多个模型上进行了评测。
特点
1. 主要考察机器学习建模和研究任务。
2. 含有13个机器学习工程任务，但任务较为简单且分布差异较大。
3. 最好的分值在37.5%，刷榜提分空间好。但是，任务难度分布差异较大。旧任务最好分值在100%，新任务最差在0%。文中采用平均值法，可能并不是很好的评估指标。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【开源发布】LangChain 中文注释项目 - 深入理解 LLM 应用开发框架

LangChain 作为业界领先的大语言模型（LLM）应用开发框架，其架构设计精妙、功能丰富，但源码复杂度较高。**LangChain 中文注释项目**是一个专为中文开发者打造的源码注释与文档库，通过系统性地整理核心模块的中文注释，帮助开发者深入理解 LangChain 的实现原理、设计思想及最佳实践。本文将介绍项目的设计理念、核心模块结构、学习路径，以及如何利用该项目快速掌握 LangChain