原文:在棋盘上用混合 AI 模型击败 GPT 4.0

一个 LLM 解决复杂问题的能力如何?

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a5061dfe1c165c75588f8908addef06c.png

图片由作者提供:使用 DALLE-3 生成的下棋机器人图片

ChatGPT 真的能下棋吗?这个问题激励我进行了一场 ChatGPT 和我的混合 AI 模型之间的棋局比赛,即一个棋艺专家机器人。第一场比赛是对 GPT 3.5 的,在这场比赛中,我发现 OpenAI LLM 模型存在几个局限性——由于 ChatGPT 对棋规理解不足,许多非法走法,以及错误的分析,比赛真的很难进行到最后。

这项分析对于理解 LLM 的限制、它们的长期推理和分析能力非常重要。通过深入了解模型的行为,我们可以找到解决其缺陷并增强其优势的方法。作为 AI 工程师,我们必须始终设置不同的实验来分析模型的实际行为,并计划在我们的项目中对其进行适应和改进。大型语言模型技术仍然非常新颖,必须不断探索和研究,以确保其最佳使用和理解。

在这篇文章中可以找到关于第一场比赛的更多细节:

Chat GPT 能下棋吗?

在击败 ChatGPT 3.5 之后,我们现在面临一个更强大的对手,其前辈的进化,那就是强大的 ChatGPT 4.0。与这个新且更强大的对手的挑战让我产生了以下疑问:

  • GPT 4.0 与 GPT 3.5 相比,在复杂分析方面是否真的有所进化?

  • 我们现在能否进行一场完整的比赛?

  • GPT 4.0 会犯与 GPT 3.5 相同的错误吗?

  • GPT 4.0 能否击败我的专家 AI 模型?

让我们来看看吧!

前言

在这场比赛中,我的 AI 模型扮演白方,以 e4 开局,即王翼兵开局,并继续使用 Gioco Piano 的流行变体:Pianissimo 变体的开局。

Pianissimo 是 Gioco Piano 最流行的变体。白方打开象位,防守 e4。通常,轻色格象会移动到 b3,b1 位的马移动到 d2,暗色格象移动到 e3 或 g5,以及王翼易位。

  1. e4 e5

  2. Nf3 Nc6

  3. Bc4 Bc5

  4. c3 Nf6

GPT 4.0,就像 GPT 3.5 一样,分析我每一步的走法,并展示它将如何反应,这非常有趣,因为它就像一个教练。因此,我认为这里有一个很大的机会,可以使用 ChatGPT 作为棋类教练工具,帮助人们在这样复杂的游戏中发展和学习。

ChatGPT 3.5 与 GPT 4.0 之间最大的区别是,ChatGPT 4.0 跟踪所有走法,并在比赛进行时将此历史包括在提示中。这种走法的跟踪可以在纠正非法走法和制定比 GPT 3.5 更好的策略中成为一个关键点。

第一次失误 – GPT 在作弊 ?!

在前 17 步中,ChatGPT 正在玩一场非常好且平衡的游戏,直到它犯了一个大错误,并以 Qg6 的走法给我的 AI 带来了优势,这是一个冒险的进攻性走法,旨在对 e4 兵施加压力,并与 h5 上的马协同攻击白王,但它暴露了自己的游戏,因为 Qg6 现在可能有点过早,如果黑方不小心,王后可能会成为白棋的目标。此外,如果没有其他棋子的充分支持,单独的王后通常不足以形成有效的攻击。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b911bf99a02b094f0d01d458ce8dfebe.png

ChatGPT 失误 – 图片由作者提供

在这一步之后,ChatGPT 犯了一个大错误,我之所以注意到它,是因为我一直在密切关注比赛。这时,我走了 c5,它只是将我的走法改为其追踪的 cxd6——是的,ChatGPT“作弊”了!

ChatGPT 改变了我的走法以利于自己游戏中的利益!您可以在下面的图片中查看:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ba286b6e3da5cbe761faf02948e479e6.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/af9ebc365429ebaa10dc23212428c77d.png

ChatGPT 回答 – 图片由作者提供

我很快指出错误,告诉 ChatGPT 它犯了一个错误,并强迫它使用我的走法,ChatGPT 继续用它的第 18 步 c5 dxc5 进行移动,好像什么都没发生一样。

第二次失误 – 再次出现非法走法

一次又一次的失误,ChatGPT 给我的模型带来了越来越多的优势,并放弃了比赛。

在第 25 步之后,随着比赛非常有利于我的 AI 模型,ChatGPT 的选项越来越少,开始犯非法走法,重复了 ChatGPT3.5 中常见的错误。正如我们下面看到的,一个 bxc6 的尝试,其中 ChatGPT 在 b 上有兵,但白方在 c6 没有棋子可以吃掉。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6bff008d131f2fcab50069790707508e.png

ChatGPT 回答 – 图片由作者提供

一次又一次的失误

现在,在第 26 步,我们有一个强大的过路兵在左边,准备升变,ChatGPT 开始陷入非法走法的循环,试图将车移到非法位置:Rb8 和 Rfb8,然后是 Rb7 和 Rfb8 再次。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b890fdb61c7c92b2667bea961e15c4ab.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cacd014d444fdbe69f2da2421929d7db.png

ChatGPT 回答和棋盘 – 图片由作者提供

经过 4 次尝试后,ChatGPT 决定选择 Rf8,这是一个失误,增加了我的 AI 的优势,正如我们下面可以看到的,在我捕获这个位于 f8 的兵之后。建议的走法是明显的吃掉兵以避免升变,但 ChatGPT 更倾向于吃掉国王旁边的象。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/93b4b5e61c1f8705ec29687620df6543.png

棋盘 - 作者图片

下一步走法从兵升变为王后,我们将在 6 步内形成将军!

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/940aa514df8cf47ccca269ee4d183c3f.png

棋盘 - 作者图片

再次,ChatGPT 试图通过几个非法走法来逃脱将军,而我不得不多次纠正。例如,在第 28 步,它尝试走 Kf6,但它的国王甚至不能在 f6 上移动,这再次表明即使是 ChatGPT 4.0 也无法很好地监控棋盘或检查合法和非法走法。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1f3842a5e2e3176dc4ead1f999c36ce3.png

ChatGPT 回答 - 作者图片

结束 - 将军!

几步棋之后,我们以两个王后组成的完美将军结束了游戏!

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bf11ebf1c200aa27a1d6249e34c8cfda.png

棋盘 - 作者图片

ChatGPT 4.0 肯定比 GPT 3.5 更好,因为我们这次能够玩到游戏结束,并且有更多逻辑性的走法,但最终我们仍然看到在像象棋这样的策略游戏中应用 LLM 模型存在一些限制,例如:

  • 失去对棋盘上移动和位置的跟踪

  • 几次尝试走非法走法

  • 过去游戏走法的改变或我的走法

  • 一些分析中的幻觉与游戏现实不符,以及犯下的几个错误

  • 在游戏中失去了很多优势,并显示出在这些走法背后没有明确的策略。

最后,我们看到 LLM 在执行更复杂任务的能力上越来越强,但仍然远未达到在没有微调或与其他模型集成的情况下超越专家水平的程度。对可以结合棋盘图像和文本的多模态模型进行联合分析,以改进其对游戏的感知并具有更准确的分析,这结合良好的策略可以大大提高模型。

如果你已经看到这里,并想了解更多关于比赛的信息,你可以在 YouTube 上观看完整比赛:

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2F2z5CeKf-kxU%3Ffeature%3Doembed&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3D2z5CeKf-kxU&image=https%3A%2F%2Fi.ytimg.com%2Fvi%2F2z5CeKf-kxU%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

FEN: 6Q1/r1p1k3/1b2Qp1p/8/3pP3/6P1/3N1P1P/R4RK1 b – – 0 33

PGN: 1. e4 e5 2. Nf3 Nc6 3. Bc4 Bc5 4. c3 Nf6 5. d3 d6 6. a4 a6 7. Nbd2 h6 8. b4 Bb6 9. Ba3 Be6 10. Qb3 Qd7 11. Bxe6 fxe6 12. O-O O-O 13. b5 Na5 14. Qb2 axb5 15. axb5 Nh5 16. g3 Qf7 17. c4 Qg6 18. c5 dxc5 19. Nxe5 Qf6 20. d4 cxd4 21. Nd7 Rf7 22. Nxf6+ gxf6 23. Bb4 Ng7 24. Qc2 Nc6 25. bxc6 Ra7 26. cxb7 Rf8 27. Bxf8 Kxf8 28. b8=Q+ Ke7 29. Qg8 Kd7 30. Qxg7+ Ke8 31. Qb3 Kd8 32. Qg8+ Ke7 33. Qbxe6#

任何问题或建议可以通过 LinkedIn 联系我:www.linkedin.com/in/octavio-b-santiago/

如果你想了解更多关于我的混合人工智能模型的信息,请阅读这篇文章:

使用决策深度强化学习破解国际象棋

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐