第一次围观AI打牌，明星模型居然集体翻车？丨开源项目CATArena拆解

看一下午AI打牌，服了

阿星AI工作室

633人浏览 · 2025-12-28 13:34:28

阿星AI工作室 · 2025-12-28 13:34:28 发布

哈喽大家好！

我是阿星👋

最近我做了一件有点离谱的事——

看了一下午AI打牌

想象一下这个画面：

8个世界上最聪明的大脑（虽然现在是硅基的😅），

AI们揣着1000筹码坐上虚拟赌桌，

一场AI之间的德州扑克“饥饿游戏”就此开始！

就是这个叫CATArena的项目！👇🏻AI勾心斗角现场

🎮 比赛规则

• 开局： 8位AI选手，每人1000筹码
• 过程：最多打60手牌，输光就淘汰
• 结局：要么打到只剩一个“赌王”，要么60手后比谁筹码多
• 计分骚操作：冠军通吃！赢家算“击败了所有其他7人”，其他人统统记一次失败。这就是传说中的“胜者全得”！

反直觉当红炸子鸡差点落榜

比如在首届线上公开赛里，Claude系列连前三都没进，而Qwen和GPT-5共同登顶，这个结果是不是和很多纯做题的榜单很不一样？

最搞笑的是😂AI能像看“武林秘籍”一样，研究对手的套路，迭代自己的策略。这简直是把“卷”字刻进了AI的DNA里。

一开始Claude是落后的，结果因为学习能力太强又自个儿逆袭了-_-||

总得来看五子棋项目中 GPT-5 表现强势拿冠军，Claude-3.7 居次；德州扑克项目里 Claude-4 是冠军常客，OpenAI-CodeX 多获亚军。

有AI在浑水摸鱼……

更有意思的是他们还放了个DeepSeek做随机策略，这哥们属于瞎打！

如果一个AI连这个“蒙眼乱打”的随机选手都赢不了就尴尬了……

同时也起到一个对比，

就像考试时有个学生全靠蒙答案，

其他学生分数如果比他高，

就能证明其他学生是真的有实力，而不是运气好。

扎心了！会写代码的不一定下棋好

1. 还预设了个对照看AI是不是爱打嘴炮！

LLM-Player =AI直接看棋盘说"我下这里"（纯推理能力）

Code Agent = AI写个程序来下棋（编程实现能力）

如果写程序的AI还不如直接下的，说明编程能力一般。

结果现在的AI写写出来的程序经常还不如自己直接玩 •ᴗ•💧会下棋≠会写下棋程序（就像会开车≠会造车），大多数AI写的程序太简单，反而限制了自己的发挥！

这……

就像让AI直接凭直觉下棋vs 让AI先写个下棋程序再下棋，通过对比能看出"编程能力"到底有没有用——

完全开源，怎么玩你说了算！🚀

那么，重点来了！

这么酷的项目，它完全开源！👏

CATArena就是一个开放的AI能力“游乐场”，规则和游戏都可以你来定义。

这已经不是一个单纯的评测了，这是一个正在生长的、属于所有开发者和AI爱好者的超级社区实验。

这意味着什么？

意味着你我不只是观众，也能成为裁判甚至游戏设计师！

你觉得让AI打王者会不会更精彩？

或者搞个“AI商业参谋大赛”，看谁收益率最高？

甚至，人、AI、代码Agent三方混战…

阿星光是想想就头皮发麻！Σ(⊙▽⊙"a

想进一步研究的同学可以看他们论文👇

论文原文整体下来结论是商业 AI 表现更能打，简单游戏学起来飞快，关键不用大量人工标注还能扩展，直接给 AI 评估提供了个新思路！

看完这些AI在牌桌上勾心斗角，我忽然觉得，真正的智能， 不能看只刷题那种“死记硬背”，还要看策略编码能力、效率表现、策略表现。

就应该放在这样复杂、动态、需要持续学习和对抗的环境里检验。这大概就是AGI评测该有的样子——不止于答题，更关乎生存与进化。

来，预测一下

你觉得下一周，德州扑克的胜率之王会是哪个模型？

我是阿星，我们下期再见！👋

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI驱动的编程革命：程序员的转型之路

在当今科技飞速发展的时代，人工智能（AI）正以前所未有的速度融入到编程领域，引发了一场深刻的编程革命。本文的目的在于全面剖析这场革命对程序员职业发展的影响，为程序员提供清晰的转型思路和可行的发展路径。文章将涵盖AI编程的核心概念、算法原理、数学模型、实际应用场景等多个方面，同时为程序员提供学习资源、开发工具和职业规划建议，帮助他们在新的编程环境中保持竞争力。本文将按照以下结构进行组织：首先介绍相关

cover

多智能体架构形态

国内可用的ChatGPT5.2镜像网站整理（2026/1更新）

超强的逻辑能力：o1 模型采用了全新的“思维链”（CoT，Chain-of-Thought）推理机制，类似于人类在回答问题前需要深入思考的过程。GPT-4o/4o-mini：性价比最高模型，支持视觉等多模态，OpenAI 文档中已经更新了 GPT-4o 的介绍：128k 上下文，训练截止 2023 年 10 月（作为对比，GPT-4-Turbo 截止 2023 年 12 月）。128k上下文：相比

所有评论(0)

查看更多评论

阿星AI工作室

已为社区贡献7条内容