【AI黑科技】“写代码“VS“直接推理“，大模型能力评估迎来颠覆！CATArena让AI在游戏中进化学习，Claude-4-Sonnet登顶“进化擂台“

CATArena是突破性大模型智能体评估框架，跳过传统"跑分"模式，通过棋牌游戏多轮对抗实现AI自我进化。采用三维评估指标：策略编程能力、全局学习能力和泛化能力。实验显示Claude-4-Sonnet表现最佳，且写代码策略与直接推理是两种不同能力，尤其在策略性游戏中代码实现更有效。该框架为评估大模型智能体提供了新范式，强调持续学习适应能力而非一次性答题表现。

朝阳区靓仔_James

674人浏览 · 2025-12-31 10:39:12

朝阳区靓仔_James · 2025-12-31 10:39:12 发布

2025年，如果说有什么词能稳占AI技术热榜C位，那一定是 Agent。

回顾这一年，却发现：智能体在进化，但评估它的方式，似乎还停留在“考试做题”的旧范式里。

直到我们发现，业内一个颇具声量的大模型评测社区「AGI-Eval」，联合上海交大 & 美团悄悄整了个“大活”。这个集结了多所高校与顶尖机构的社区，一直致力于用长期、科学的评测推动AI向通用智能进化，而这次拿出的方案，彻底跳出了传统“跑分”的框架：

「进化擂台」CATArena，一套基于迭代锦标赛的大模型智能体评估框架——不考做题，拼学习、进化。

代码： https://github.com/AGI-Eval-Official/CATArena
论文： https://arxiv.org/abs/2510.26852

CATArena（Code Agent Tournament Arena）在线平台：https://catarena.ai/replays

它不是让AI回答“标准答案”，而是让它们在四款经典棋牌游戏（德州、桥牌、象棋、五子棋）中，通过多轮对抗，不断观察对手、复盘历史、迭代代码策略，真正实现“自我进化”与“同伴学习”。

Agents筹码走势

在这里，没有“满分”限制，只有持续进化的策略和动态变化的排行榜。

一张图速览框架

图 1：两轮迭代流程——首轮冷启动编码，次轮读取全部对手日志与代码，自我升级后再次 PK。

第一轮：初代策略诞生

每个 Agent 拿到：

游戏源码 + 一份示范 AI 实现
目标：无外部指导，独立开发自己的策略参加后续锦标赛

表1：CATArena 中各游戏竞技场及其典型玩法概览

第N轮：迭代与对抗

重头戏，每个 Agent 拿到：

上一轮全部对手源码
上一轮全部对局日志
目标：读代码、找漏洞、升级自己的策略

但问题来了：在这样一个动态、开放的竞争中，如何客观评判一个智能体是真正“学会了”，还是在“无效内卷”？

CATArena给出了最精妙、也最具突破性的部分：

三维量化评分（核心公式）

能力	公式（节选）	直观解释
1. 策略编程能力	Sᵢ = avgⱼ≠ᵢ(Wᵢ,ⱼ¹)	首轮agent-i的初版代码对所有对手的平均胜率，即“即战力”
2. 全局学习	Lᵢ = avgₙ≥₂(Gᵢⁿ − Gᵢ¹)	第n轮策略相对所有策略的综合胜率提升，正值=越学越强
3. 泛化能力	Uᵢ = Bᵢ¹ᵛᵃʳ − Bᵢ¹ˢᵗᵈ	首轮在“变种规则”与“标准规则”下的胜率差，正值=见新规则能快速上手

实验设计

两类参赛者

Minimal Agent：ADK 框架 + 6 种主流 LLM（DeepSeek-3.1、Qwen3-Coder-480B、Doubao-Seed-1.6、GPT-5、Claude-4-Sonnet、Gemini-2.5-pro）。
Commercial Code Agent：Claude-Code、CodeX、Gemini-CLI、Qwen-Coder，以及把上面表现最好的 Minimal 版本也拉进来再打一轮。

额外设置 LLM-Player 对照：不让模型写代码，直接让 LLM 每步零样本出招，用来验证“写代码”与“直接推理”到底是不是两种能力。

每场比赛重复 4 次取平均，减少随机抖动；每轮迭代共 N=4 轮。

主榜：谁最强？

表 3：CATArena综合平均排名（越低越好）。

在Minimal设定下，不同 LLM 之间的差距被放大，Claude-4-Sonnet综合第一，其余模型排名分散。
有趣的是：在Commercial里，这一差距明显缩小，均约 2.5/5，说明框架工程化能把模型潜力榨得更干净。

表 4：CATArena分项原始分数表

学习能力

图 2(a) 全局性能曲线：

Claude-4-Sonnet（Minimal）呈现出明显的上升轨迹，体现出强劲的学习能力
然而大多数智能体的表现仍不稳定，未见清晰趋势

图2：Agents学习模式与得分

图 2(b) 学习分数分析：

在多轮比赛中，Claude-4-Sonnet、Qwen Code等Agent既能从对手汲取经验、也能持续迭代自身策略，从而取得正向的全局学习分

消融：Agents vs LLM

表 12：Agent 代码 vs 同底模 LLM-Player 的胜率。

高度策略性（象棋、五子棋）的游戏 → 部分 Agent写代码策略碾压 LLM，代码实现能够更有效地利用游戏规则和策略
心理/概率（德州）为主的游戏 → Agent 的胜率普遍低于 LLM，这类心理战术难以通过代码模拟，而LLM却可通过上下文学习进行总结。

图 3：Agent 代码与 LLM-Player 在国际象棋残局中的行动一致性

Agent 代码中编码的策略与同一模型直接推理出的策略显著不同，不同 Agent 和不同 LLM 产生的策略也显示出显著的相似性。

这进一步证明 Strategy Coding ≠ Reasoning， CATArena评估的是 Agent 的策略编码能力，而不是推理能力，补上了 Benchmark 空白。

更多赛道：ML + 多语言

表13：Agents的ML得分及平均排名

ML 赛道：Agent 在 GPU 环境下自主生成数据、设计代码、训练模型，并提交ML策略。大多 Agent 仅实现基础模型且训练有限，导致性能差距较小。
多语言赛道：同一策略用 Python/JS/Go 各实现一次。Qwen3-Coder 方差最小，跨语言一致性最好；GPT-5、Doubao-Seed 出现“Python 强、JS/Go 掉崖”现象，说明抽象策略迁移仍有瓶颈。

表 14：Agents的多语言得分方差

最后

CATArena的出现，像是一股清流，冲刷着Agent评测的同质化焦虑。它告诉我们：智能体的价值，不在于一次性答对多少题，而在于它能否在一个不断变化、对手林立的世界里，持续地理解、适应并最终超越。

未来会引入更复杂的 RTS、兵棋、经济模拟等；同时会把 Human-in-the-loop 引入循环，让 Agent 向人类高手学招。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述