大模型真的能达到Kaggle大师水平吗？从MLE-Bench排行榜看AI自动化的真相

摘要：文章探讨了大模型在自动化机器学习工程（MLE）中的应用潜力，提出MLE-Bench评估基准，通过75个Kaggle任务量化大模型的MLE能力。研究以AIRA-dojo框架为基础，从环境组织、评估信号、算子设计和搜索策略四个维度对比了AIDE、R&D-Agent等四种方法的差异。结果显示，大模型在部分任务上接近人类水平，但工程闭环稳定性、评估可靠性和算子有效性仍是瓶颈。未来需优化系统

python零基础入门小白

661人浏览 · 2025-12-29 20:06:41

python零基础入门小白 · 2025-12-29 20:06:41 发布

文章探讨了利用大模型自动化机器学习工程(MLE)的能力，提出了MLE-Bench评估基准，并分析了四种代表性方法在环境组织、评估信号、算子设计和搜索策略四个维度的特点与差异。研究发现，大模型在部分MLE任务上已接近人类水平，但要在长期稳定产出方面达到Kaggle Grandmaster标准仍有较大差距，未来需在工程闭环稳定性、评估可靠性和算子有效性等方面持续改进。

背景介绍

1.AutoML 简介

用大模型支撑自动化机器学习（LLM4AutoML）是一类典型的开放式问题：任务形态多样、搜索空间巨大、评估目标也随场景变化。现实业务中，机器学习往往承担两类角色：其一是从数据中抽取可解释的规律与指标，其二是把这些规律转化为可执行的决策流程。在金融、医疗、制造等行业，这种价值链条已经非常明确。

与产业实践并行推进的，是以 Kaggle 为代表的机器学习竞赛体系。竞赛的意义不只是提供一组公开数据与排行榜，更重要的是把工程问题压缩为可复现的基准：同一指标、同一数据、同一提交格式，使得不同方法可以在相对一致的条件下对齐比较，同时也沉淀出可迁移的工程套路。

在大模型普遍参与代码生成之前，Kaggle 的奖牌方案通常来自“领域理解 + 数据科学方法”的结合，即一个具备领域知识的专家首先对数据集进行清晰，提炼出具有领域知识意义的特征，再利用各种Machine Learning Engineering的方法和技巧选择合适的模型，训练模型并微调模型。常见流程并不是一次性训练一个模型，而是典型的研究式迭代：先明确目标与评价指标，再做数据探索与统计分析，结合领域知识提出假设，随后通过特征工程、模型选择、超参搜索与消融实验逐步逼近更优解，最终把训练、验证与提交打磨成可稳定复现的工程闭环。

由此引出一个关键问题：如果上述机器学习pipeline建模本质上是一种迭代搜索过程，那么大模型是否可能把这类过程自动化，并在更大范围内规模化复用？

2.大模型的代码生成能力是否足够

现在是 2025 年 12 月，我们已经能看到一些相对强的信号：在 2025 ICPC World Finals 的官方监督实验中，OpenAI 公开披露其系统解出了全部 12/12 题；Google DeepMind 也披露 Gemini 在同场景下解出 10/12，达到了金牌水平，并给出了总用时等细节。[1][2]

需要强调的是，ICPC 属于规则明确、输入输出严格的算法题，而机器学习任务则更开放，且对外部知识与工程经验依赖更强，数据理解、切分策略、泄漏规避、训练细节与评估协议都会显著影响结果。因此，ICPC 的成绩不能直接等价为机器学习工程能力。

但如果把问题限定在“把复杂思路落成可运行代码并完成多轮调试”的能力上，那么竞赛级表现至少说明：大模型在编码与推理层面具备可用的下限。基于这一前提，利用大模型助力AutoML 的难点会更集中地转移到三件事：如何定义可优化的目标与约束，如何把实验反馈组织成稳定的迭代信号，以及如何把外部知识与历史试验结果纳入可执行的决策闭环。

3.如何评估大模型在MLE任务上面的能力

在大模型能够在ICPC世界总决赛领先人类之后，真正的分水岭其实是：会写代码 ≠ 会做机器学习工程（MLE）。

在Kaggle竞赛当中，机器学习任务的难点往往不在某一段算法实现，而在一整条工程闭环：读懂任务与指标、把数据清洗/切分到不泄漏、搭出可复现的训练与验证流程、持续做实验迭代（特征、模型、超参、后处理），最后产出一个格式完全正确、分数可信的 submission.csv 。这套把结果做出来，并且能稳定交付的能力，才是 MLE（Machine Learning Engineering）语境里真正关心的东西。也正因为如此，如果我们要严肃讨论大模型能不能胜任 MLE，就需要一个比写几段训练代码更贴近真实工作的评测基准。

MLE-Bench正是为此设计的：它将 75 个 Kaggle 竞赛整理成可离线复现的任务集合，用公开榜单建立人类基线，并提供数据准备脚本（由于 Kaggle 不公开真实测试集，因此会从公开训练集中重新切分出 train/test）以及本地评分脚本，让Agent在本地完成从训练、到提交、再到打分的完整流程[3]。

图1. MLE-bench Leaderboard部分名单（截至2025年12月24日）

其中 High / Medium / Low 表示题目难度分层，表格中的数值则是对应难度下的得牌率（即至少达到铜牌水平的任务占比）。

接下来，我们就从这张 leaderboard 出发，拆解部分公开论文或者代码的方法是如何把 MLE 任务跑通的，以及它们各自的工程取舍与能力边界。

设计 MLE-Agent：AIRA-dojo 的方法论视角

在进入具体系统方法介绍之前，有必要先引入 Meta FAIR 的工作 AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench（AIRA-dojo）。[4]这篇论文值得放在前面，并非因为它提出了某个单点更强的 Agent，而是因为它给出了一个可复用的分析框架，能把 MLE-Agent 的能力拆成可对照、可消融的组件。

论文将 MLE-Agent 形式化为一个搜索过程：每个节点是一份候选 artifact，通常是一套可运行的训练脚本或代码仓库，执行后得到模型与验证分数，智能体通过一组算子对 artifact 进行修改，从而扩展搜索树或搜索图，再通过选择策略决定将计算预算分配到哪些分支上。

图2. AIRA-dojo的MLE-Agent性能金字塔

在此基础上，作者通过对照与消融实验，总结出影响 MLE-Agent 的性能金字塔。金字塔的核心观点是：MLE-Agent 的上限通常不是由某一种更复杂的搜索策略单点决定，而更受制于系统栈中最薄弱的环节。

从底向上，层级依次回答一组更基础的问题。

首先是计算资源（Compute Resources），决定可运行的实验次数与探索规模。其上是环境层（Environment），关注实验能否长时间稳定运行、是否可复现、错误与日志能否被完整捕获并进入修复流程。AIRA-dojo 的实验显示，即使方法本身不变，仅迁移到更稳定的执行环境，得牌率也可能明显变化，这说明工程底座对最终结果具有放大效应。

再往上是评估信号层（Evaluation Signal）。这里讨论的不是指标名称是否合适，而是搜索过程中驱动决策的代理信号是否可靠。MLE 任务中，Agent通常依赖内部切分的验证分数作为反馈，但最终榜单由隐藏测试集决定。

验证分数存在抽样噪声与切分偏差，且随着反复调参和特征迭代，方案可能逐渐适配验证集，出现验证提升而测试不随之提升的偏差。作者通过对照设置进一步指出，泛化差距中相当一部分并非来自搜索未触及高质量方案，而是来自最终提交选择被代理信号误导，导致从候选集中选错提交对象。

在评估信号之上，是算子层（Operators），即Agent可使用的改动动作集合。论文的一个关键发现是：当算子能力受限时，仅替换更复杂的搜索策略（例如 MCTS 或演化搜索）并不一定带来稳定收益，瓶颈往往出现在“能否提出有效改动”而非“如何更聪明地搜索”。

只有在环境稳定、评估信号可靠、算子有效的前提下，塔尖的搜索策略（Search）才更可能带来可复现的增益。基于这一框架，下文按时间顺序分析四个代表性方法，并统一从环境、评估信号、算子与搜索策略四个层面展开。

方法分析：四种典型路线如何跑通 MLE-Bench

接下来我们按照方法提出的时间顺序，着重从环境、评估信号、操作算子、搜索策略四个方面介绍四个代表性的方法。

1.AIDE：最小可用闭环的基线形态(Ranking: 15)

图3. AIDE生成代码的方式

这篇工作来自weco AI，AIDE 的价值在于把 MLE 问题做成一个可执行的搜索闭环：用“脚本”作为候选解，用运行结果作为反馈，反复迭代直到分数收敛。[5]

**Environment：**AIDE 用 solution tree 保存每一次尝试。每个节点是一份可运行脚本，父子关系对应一次从父节点出发的改动。这样历史可追溯，同时避免把完整日志不断堆进提示上下文。为控制上下文长度，它用 summarization operator 把历史尝试压缩成短摘要，摘要包含高层想法、关键指标、调参信息与调试线索，并作为下一轮生成的主要上下文。提示里还会加入轻量 data preview，用于支撑切分与预处理等工程决策，但不追求完整 EDA。

**Evaluation Signal：**评估信号是内部验证分数。脚本执行后由 evaluator 返回一个标量指标（如 accuracy 或 loss），作为搜索反馈。

**Operators：**AIDE 把动作收敛到三类：生成新方案（Draft）、修复运行错误（Debug）、在可运行基础上做性能改进（Improve）。每个动作对应一套Prompt模板，触发一次模型调用完成对应改动。

**Search Policy：**它用显式规则调度三类动作。初期优先扩展起点数量，迭代中若存在运行失败且仍在允许的调试深度内则优先 Debug；脚本可运行后通常围绕当前最好分支继续 Improve。策略简单但可解释，且通过限制调试深度控制失败分支的预算消耗。

2.R&D-Agent：把评估做“可比”，让并行探索更像研发流程(Ranking: 9)

图4. R&D-Agent系统架构设计

这篇工作来自微软亚研院，R&D-Agent 的核心不是把某个单点策略做得更复杂，而是把 MLE 的研发过程拆成研究与开发两段，并把跨分支比较这件事做得更稳，从而降低“分数不可比”和“最终选错提交”的风险[6]。

**Environment：**系统维护 exploration graph。每一轮 R&D loop 会把父节点集合、研究想法、实现代码与评估结果写入图中，下一轮从图里选父节点，构造上下文，再生成新想法并落地评估。图结构带来的关键能力是并行分支与后期合并更自然，历史信息的引用有结构，不依赖无界日志堆叠。

**Evaluation Signal：**它显式强调评估协议一致性。一次实验开始就固定 train/val/test 切分，test 不参与开发迭代；此外引入 aggregated evaluation，把不同分支产生的候选收集到同一评估协议下重新比较，使跨分支排序更稳定，也更接近“最终提交选择”所需要的信号。

**Operators：**R&D-Agent 的算子以模块形式出现，覆盖计划、推理、记忆与实现评估等环节。研究侧强调动态 planning 和多步推理，并通过虚拟评估先筛后做，减少无效想法进入实现阶段。开发侧强调效率与可比性，例如先在小规模代表性子集上完成快速原型与修复，再进入更重的全量训练，并用统一协议输出可比较的结果。

**Search Policy：**搜索组织成自适应 DAG。早期强调方向多样性以降低路径依赖，中期在分支内部围绕更优候选推进，同时剪枝低效路径，后期执行合并，把不同分支的有效改动整合到最终方案中。实现上对应 exploration graph 的持续扩展与基于整图的最终提交选择。

3.ML-Master：用 MCTS 管预算，把反馈做成“能回传”的信号（Ranking: 1）

图5. ML-Master系统设计

这篇工作来自上海交通大学，目前改良后的版本ML-Master2.0获得MLE-bench leaderboard的第一名。ML-Master 的主线是把 MLE 的迭代过程纳入 MCTS 框架：一方面用 UCT 分配探索与利用，另一方面把“工程进展”纳入回传信号，使搜索更稳定[7]。

**Environment：**每次尝试对应搜索树中的一个节点，扩展、验证、回传按 MCTS 流程组织，并行化用于扩大探索宽度。它还设置了受控记忆：只取当前分支的直接前序与同深度 sibling 节点的信息，把推理要点与执行反馈注入推理过程，避免历史信息无界膨胀。

**Evaluation Signal：**与只返回验证分数不同，ML-Master把节点状态映射为可回传的 reward。运行失败给出固定负反馈，可运行节点的回报同时反映性能提升、故障修复与结构性推进，使回传信号既表达“好不好”，也表达“进没进展”。

**Operators：**动作仍围绕生成、调试、改进三类展开，但它们被纳入树搜索动作空间，并由 UCT 与回传 reward 共同决定扩展顺序。

**Search Policy：**selection 阶段使用 UCT，同时引入终止与剪枝机制控制预算消耗，包括改进停滞终止与调试深度限制。执行层采用异步并行扩展，在多个分支上推进后再回到根节点选择新的高 UCT 分支继续探索，减少重复探索并动态分配算力。

4.MLE-STAR：把改动聚焦到关键代码块，并把外部检索纳入起点构造（Ranking: 4）

图6. MLE-STAR系统架构设计

这篇工作来自Google Cloud。MLE-STAR 的切入点很明确：一类瓶颈来自模型选择容易陷入既有知识惯性；另一类瓶颈来自整体改脚本会稀释改动焦点。因此它先用 Web Search 把起点做强，再把迭代粒度降到代码块级别[8]。

**Environment：**流程分为起点构造、定点改造与稳健性处理。起点阶段通过网页检索获得更贴近任务的模型与示例代码，生成多个候选脚本并本地评估，再按分数逐步合并形成更强初始解。定点改造阶段不再整体重写，而是通过消融定位对分数影响最大的代码块，并围绕该块做多轮局部替换。稳健性部分包括调试修复、数据泄漏检查与数据使用检查，用于降低工程性失败与评估污染。

**Evaluation Signal：**主信号仍是验证分数。额外引入的结构化信号来自消融实验的组件贡献度，用来决定下一轮精修目标，并结合“已精修记录”减少重复投入同一部件。集成阶段仍以运行得分作为比较依据，但对象从单模型转为集成策略。

**Operators：**算子体系围绕检索、候选合并、消融诊断、代码块级精修、集成与稳健性修复展开。关键变化在于改动粒度收敛到代码块，使每轮迭代更聚焦，收益更容易归因。也就是说，MLE-STAR的算子变得更精细，不仅仅是一次生成一份完整的Pipeline，而是对这份完整地代码片段都进行颗粒度更细地改进。

**Search Policy：**搜索组织为双层循环。外层根据消融结果选择要改的代码块，并结合历史精修记录做去重。内层围绕该块提出计划、生成替换实现并回填评估，仅在分数提升时更新当前解，直到达到预算。集成阶段复用同样的计划—实现—评估循环。

总结与观察

将 AIDE、R&D-Agent、ML-Master、MLE-STAR 放到 AIRA-dojo 的四层框架下，可以看到它们并非在同一层面竞争。AIDE 提供了结构清晰的基线：树结构保存历史，三类算子驱动迭代，规则调度控制预算。后续系统的主要增量集中在两点：其一是评估协议更一致、更可比，降低代理信号噪声与提交误选；其二是算子更结构化，能把预算投入到更有把握的改动上。搜索策略的复杂化确实重要，但更依赖底层环境稳定、评估可靠与算子有效，否则复杂搜索往往难以带来稳定收益。

从环境组织方式看，AIDE 采用树结构，R&D-Agent 采用图结构并强调分支合并，ML-Master 采用 MCTS 树并控制记忆作用域，MLE-STAR 则把外部检索与代码块级精修纳入流程，使环境更贴近工程上的局部重构。

从评估信号看，差异最能解释性能波动。AIDE 以内部验证分数驱动，闭环完整但代理偏差难以系统控制。R&D-Agent 用标准化切分与聚合评估增强可比性。ML-Master 通过奖励塑形把质量提升与工程进展纳入同一回传信号。MLE-STAR 引入消融贡献度作为结构化诊断信号，用于更精确地分配迭代预算。

从算子看，AIDE 的生成、调试、改进三件事构成最小闭环；R&D-Agent 与 ML-Master 在这一节奏上增加计划、筛选与推理结构；MLE-STAR 则把改动粒度下沉到代码块级，并加入检索与稳健性检查，使每轮改动更聚焦、可归因。

总的来说，围绕 MLE-bench 的这些工作已经把让大模型完成一条可运行的机器学习工程闭环从概念验证推进到可对照、可复现的系统研究。它们分别在环境组织、评估信号、算子设计与搜索调度上做出了不同取舍，并通过消融实验把性能差异对应到具体模块。

现在我们回到文章的标题：大模型已经达到 Kaggle Grandmaster 水平了吗？如果只看少数任务、在固定数据集上冲一次最高分，从 MLE-Bench 目前每月更新一次榜首的速度来看，这个距离可能并没有想象中那么遥远。

但如果要求像真正的 Grandmaster 那样长期稳定产出——读懂赛题、识别陷阱、管理实验、控制风险、在有限时间内做出高质量取舍，并且在分布变化和工程约束下持续迭代——要达到这个水平，也许还有很长的路要走。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

又一家大厂宣布禁止用cursor！

2048 AI社区

12.26-29国内外互联网技术热点TOP3及开发者指南(6G全频段芯片+数字孪生低空经济爆发！)

12月26-29日的三大热点勾勒出“6G硬件攻坚、数字孪生落地、算力供应链升级”的发展脉络：6G全频段芯片突破通信技术瓶颈，数字孪生在低空经济与城市治理中规模化应用，HBM4量产强化AI算力支撑。对开发者而言，需重点把握三大方向：一是布局6G全频段相关的应用开发与适配；二是深耕数字孪生垂直场景的技术创新；三是关注算力硬件升级带来的模型优化与应用落地机遇。

2048 AI社区

【AI测试全栈：质量模型】5、全栈AI测试实战指南：电商推荐系统测试金字塔从理论到落地

《全栈AI测试实战指南》深入剖析电商推荐系统测试方法论，构建了从单元测试到社会测试的完整金字塔框架。文章首先解析推荐系统三层架构（召回-排序-后处理）及技术栈（Spring Boot+Python+Vue），针对AI模型不确定性、多端协同等挑战提出分层测试策略。重点展示了Python模型单元测试实践，涵盖前向传播、梯度验证等核心场景，提供50+可运行代码示例。通过Allure报告和真实业务用例，为