MLGym: A New Framework and Benchmark for Advancing AI Research Agents

arxiv: https://arxiv.org/abs/2502.14499
code: https://github.com/facebookresearch/MLGym?tab=readme-ov-file
详情介绍:https://blog.csdn.net/qq_41094332/article/details/157214262?sharetype=blogdetail&sharerId=157214262&sharerefer=PC&sharesource=qq_41094332&spm=1011.2480.3001.8118

  • 简介
    Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时,对性能和开销进行了多维度评价。

  • 特点

    1. 较为权威,主要考察5类任务,13个机器学习建模问题。
    2. 开源了MLGym和MLGy-Bench:
      (1)MLGym:提供了解耦合的评测框架,具有智能体、环境、数据集和任务四个组件。可自定义这四个组件中的内容。默认智能体为SWE-Agent。
      (2)MLGy-Bech:具有数据科学、博弈论、计算机视觉、自然语言处理和强化学习场景任务。
    3. 适用于考察研究能力和机器学习建模能力的任务。

MLE-BENCH: EVALUATING MACHINE LEARNING AGENTS ON MACHINE LEARNING ENGINEERING

arxiv: https://arxiv.org/pdf/2410.07095
code: https://github.com/openai/mle-bench/

  • 简介
    OpenAI针对mle任务的评估数据集。 基准选取了75个来自Kaggle竞赛的数据科学问题(涵盖图像分类、文本分类、回归等),重点考查训练模型、准备数据、实验执行等工程技能。 支持端到端评测。代理需阅读任务描述、编写和运行Python代码、生成结果,整个流程模拟真实数据科学竞赛场景。

  • 特点

    1. 较为权威,主要解决Kaggle上机器学习建模问题。
    2. 迭代一次速度太慢。官方要求:
      (1)75个任务,每个任务用至少 3 个种子重复每个评估,并将 Any Medal (%) 分数报告为平均值±平均值的一个标准误差。
      (2)每个任务运行时间: 24 小时。计算:36 个 vCPU,具有 440GB RAM 和 1 个 24GB A10 GPU。
      (3)数据量:3.3TB
    3. 有一个精简版,22任务,总数据量158GB。
    4. 最好的分值在18%左右,刷榜提分空间好。

MLRC-BENCH: Can Language Agents Solve Machine Learning Research Challenges?

arxiv: https://readpaper.com/pdf-annotate/note?pdfId=2301067285072758272&noteId=2830378885131194112
code: https://github.com/snap-stanford/MLAgentBench/tree/main

  • 简介
    旨在评估LLM代理在机器学习前沿研究问题上的解决能力。它从顶级ML会议的竞赛中选取7个问题(例如LLM模型合并、模型后门触发恢复、时序动作定位、气象预测、机器遗忘、推荐系统、跨域元学习等),这些问题都需要创新方法和深入实验。该基准采用严格的客观度量,评估代理提出并实现新方法的效果。 支持端到端评测。代理从分析问题、生成和执行代码,到输出最终提交文件全流程执行。自动评分代码会根据任务规则给出分数,代理最终得分与人类竞赛榜单比较。

  • 特点

    1. 主要解决顶级ML会议中的竞赛问题,选取的题目较难。采用近期的竞赛减少了数据泄露的风险,除了考察建模能力,还可以考察创新能力。
    2. 在hf上有Leadborad,可在公开榜单上排名比较。
    3. 数据量有点少,只有7个赛题,涵盖资源有限。适合考察Agent在解决难题里的表现情况。
    4. 最好的分值在9.3%,刷榜提分空间好。

ML-BENCH: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code

arxiv: https://arxiv.org/pdf/2311.09835
code: https://github.com/gersteinlab/ML-bench

  • 简介
    评估LLM利用现有开源库完成机器学习任务的能力 基准覆盖18个著名ML相关GitHub仓库,共9,641个任务示例 包括两个基准:ML-LLM-Bench(在已配置环境中只评估文本到代码的生成质量)和ML-Agent-Bench(让代理自主加载环境、运行和测试代码)。在ML-Agent-Bench中,代理通过迭代执行和调试来完成任务。

  • 特点

    1. 主要考察Agent结合代码仓库里的知识去进行机器学习解决问题。但主要体现的是对已有代码仓库的理解和应用,缺乏对开放性机器学习建模问题的考察。
    2. 涵盖代码仓库主要为多start的18个机器学习代码仓库。涵盖问题多,共9641个。
    3. 具有两个基准:
      (1)ML-LLM-Bench评估端到端的llm生成代码能力,具有完整环境。
      (2)ML-Agent-Bench评估智能体迭代执行和调试能力,不具有完整环境,需要自己安装库。
    4. 最好的分值在50%左右,刷榜提分空间好。

DSBENCH: HOW FAR ARE DATA SCIENCE AGENTS FROM BECOMING DATA SCIENCE EXPERTS?

arxiv: https://arxiv.org/pdf/2409.07703
code: https://github.com/liqiangjing/dsbench

  • 简介
    用于评估数据科学代理的能力。它包含466个数据分析任务和74个数据建模任务,任务来源于Eloquence(ModelOff平台)和Kaggle竞赛,模拟了真实世界的数据科学工作流程。 包含数据清洗、可视化分析、统计建模、机器学习训练等多种典型任务,涉及多表关联和大型数据集。 支持端到端评估。每个任务从输入原始数据到输出预测或分析报告,代理全程独立完成。评估指标包括准确率、RPG(相对性能差距)等。

  • 特点

    1. 主要考察金融相关的数据科学和Kaggle上的机器学习建模问题。
    2. 涵盖数据量广,466个数据分析问题,74个机器学习建模问题。
    3. 并不都是机器学习建模问题,存在一部分是QA问答问题。问题格式为选择题或者填空题。可能会存在数据泄漏情况
    4. 最好的分值在34%,刷榜提分空间好。

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

  • 简介
    首个专门评测 Research Agent 在机器学习任务上能力的Benchmark,共有13个任务,分别由经典任务、经典Kaggle任务、Kaggle挑战任务、近期研究任务和代码改进任务组成。构建了一个ReAct架构的Agent,在多个模型上进行了评测。

  • 特点

    1. 主要考察机器学习建模和研究任务。
    2. 含有13个机器学习工程任务,但任务较为简单且分布差异较大。
    3. 最好的分值在37.5%,刷榜提分空间好。但是,任务难度分布差异较大。旧任务最好分值在100%,新任务最差在0%。文中采用平均值法,可能并不是很好的评估指标。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐