加我进AI讨论学习群,公众号右下角“联系方式”

文末有老金的 开源知识库地址·全免费


这篇文章分为两个部分:

1、最近总有小伙伴问我这三个模型,索性把老金已知的用大白话直接讲给大家。

2、之前开源过的单窗口联合使用方法 - 用最少的成本,做最有效的事。

这里包含了老金的开源地址,可以查看到CLaude Code内怎么联合使用 Claude、Gemini、GPT。

并且可以学到Claude Code的所有功能模块的基础使用方法 - Commond、Subagent、Hook、Skill和Plugin。

这里有个概念老金也想说一下:

Claude Code是AI工具,实际用起来它能做很多事情。比如写文章,比如数据分析,比如工作流,比如它也可以链接ComfyUI进行绘画和视频等等操作。

举个例子:

写文章(我已经很久没手动从头到尾写了,基本上每次只修改一丢丢)

Image

学卡神这样的大佬怎么写文章(我朝鲜族,汉语不好,有理由了 = = ):

Image

再或者数据分析(网页是拿Claude Code搭建的,展示在Cursor内,用了昨天介绍的Cursor2.2的Browser随便调整的强大功能):

Image

总而言之,不要因为他挂着AI编程的名号就不敢用了。

反而,他让我这样一行代码不会写,英语也不好的人,有机会做了曾经根本不可能做到的事情。


上上周五早上刷TechCrunch,看到OpenAI内部发了个"Code Red"备忘录,我整个人有点懵。

不是因为他们要失败了,而是这三家大厂(OpenAI/Google/Anthropic)最近一个月密集发布新版本的架势,简直像打仗一样激烈。

Gemini 3 Pro(11月中旬)→ Claude Opus 4.5(11月24日)→ GPT-5.2(12月11日),三个月内三巨头全换代。

老金我这周把这三个模型都玩了一遍,今天就和你聊聊:到底该选谁?

老金的答案是:别选了,三个都用。

先说说"Code Red"到底咋回事

Bloomberg爆料,OpenAI CEO Sam Altman在12月1日给员工发了内部备忘录,原话是"code red"(红色警报)。

原因很简单:

  • ChatGPT流量下滑
  • Gemini 3 Pro发布后市场份额被抢
  • Claude Opus 4.5编程能力超过GPT-5.1

所以OpenAI加急发布了GPT-5.2,就是为了反击Google和Anthropic。

这就是AI界的 "三国杀"。


老金实测:三个模型到底哪个强?

我这2周专门花时间测了一下,具体场景包括写代码、做推理题、处理长文本。

数据来自官方benchmark和我自己的真实使用。

1、编程能力:Claude Opus 4.5 > GPT-5.2 > Gemini 3

SWE-bench Verified测试(GitHub真实bug修复):

  • Claude Opus 4.5:80.9%(第一名)
  • GPT-5.2:80.0%(差0.9%)
  • Gemini 3 Pro:数据未公布,但口碑不如前两个

实战案例:

我让三个模型同时写一个Python爬虫脚本,要求抓取HackerNews热榜前20条,解析标题和链接,保存到JSON。

Claude Opus 4.5:

  • 一次性通过,代码结构清晰,注释完整
  • 主动加了异常处理和重试机制
  • 速度最快,3秒生成完整代码

GPT-5.2:

  • 也是一次性通过,但代码略啰嗦
  • 有些地方过度封装(写了3个helper函数)
  • 速度稍慢,5秒左右

Gemini 3 Pro:

  • 第一次生成有个小bug(requests库导入位置不对)
  • 修正后能用,但整体代码质量不如前两个
  • 速度中等,4秒

结论:编程首选Claude Opus 4.5,GPT-5.2也够用,Gemini 3稍逊。

2、推理能力:GPT-5.2 Pro > Gemini 3 Deep Think > Claude Opus 4.5

ARC-AGI-2测试(抽象推理):

  • GPT-5.2 Pro:54.2%(第一名)
  • Gemini 3 Deep Think:45.1%
  • Claude Opus 4.5:37.6%

AIME 2025测试(数学竞赛):

  • GPT-5.2:100%(满分,无工具辅助)
  • Gemini 3 Pro:接近100%(需要代码执行辅助)
  • Claude Opus 4.5:数据未公布

实战案例:

我给了一道逻辑推理题:

5个人住5个颜色房子,每人喝不同饮料、抽不同烟、养不同宠物,根据15条线索推理谁养鱼。

GPT-5.2 Pro(思考模式):

  • 完美解答,推理过程清晰
  • 列出了所有可能性,逐步排除
  • 用时8秒

Gemini 3:

  • 也能解答,但推理链稍显混乱
  • 有2个步骤需要我手动确认
  • 用时10秒

Claude Opus 4.5:

  • 答案正确,但推理过程跳步
  • 有些逻辑直接给结论,没说为什么
  • 用时5秒(最快,但不够严谨)

结论:复杂推理首选GPT-5.2 Pro,Gemini 3也够用,Claude适合简单推理。

3、成本对比:Gemini 3免费 > GPT-5.2中转 > Claude Opus 4.5中转

这是老金我这种小卡拉米最关心的。

官方定价:

  • GPT-5.2:$20/月(Plus订阅)或API按量付费
  • Claude Opus 4.5:$20/月(Pro订阅)或API按量付费
  • Gemini 3 Pro:免费(Google AI Studio)

实战成本:

我上周写了20篇文章,每篇用AI辅助生成初稿、优化标题、质量检测,三个模型混用:

总消耗:

  • GPT-5.2(中转):约$8
  • Claude Opus 4.5(中转):约$6
  • Gemini 3 Pro(官方免费):$0

如果只用一个模型:

  • 只用GPT-5.2:$30+(官方订阅)
  • 只用Claude:$25+(官方订阅)
  • 只用Gemini:$0(但编程能力不足)

结论:成本控制首选Gemini 3白嫖,需要高质量时用GPT/Claude中转。

如果对你有帮助,记得关注一波~


老金的全用策略:别选了,三个都上

说实话,这三个模型各有优缺点,选哪个都不完美。

但老金我发现,如果三个都用,成本还能控制住,那才是最优解。

我的具体用法:

1、Claude Opus 4.5(中转)- 写代码专用

  • 场景:写Python脚本、调试代码、重构代码
  • 原因:编程能力最强,代码质量最高

2、GPT-5.2(中转)- 复杂推理专用,含修BUG

  • 场景:写复杂文章、分析数据、逻辑推理
  • 原因:推理能力最强,思考模式牛

3、Gemini 3 Pro(官方免费)- 日常使用

  • 场景:简单对话、翻译、总结文章、查资料
  • 原因:完全免费,速度快,够用

关键是:

  • Gemini能解决70%的日常需求(免费)
  • Claude处理20%的编程需求(高质量)
  • GPT处理10%的复杂推理(最强思考)

这就是"全用策略"的精髓:用最少的钱,获得最强的能力组合。

全用策略的具体实现:Claude Code编排三大AI

说实话,"全用策略"理论很美好,但实际操作时有个巨大的痛点:三个模型之间信息根本不互通。

Claude分析完需求,得手动复制到Codex生成代码;Codex写完代码,又得手动粘贴到Gemini审查;Gemini提出改进建议,还得回到Codex重新生成。

就像三个人在同一个办公室干活,中间隔了两堵墙,全靠老金我这个产品经理跑来跑去传话。

上周突然想明白:Claude Code本身就是个编排器啊!

它有Command(命令)、Skill(技能)、MCP(服务器)、Subagent(子智能体)、Hooks(钩子)这么多功能,为啥不用来编排这3个AI?

老金开源了完整实现方案

折腾了三天,试了5种不同的集成方式,每种都有各自的适用场景。

老金我把这套方案全部开源了:

项目Github地址:https://github.com/KimYx0207/Claudecode-Codex-Gemini

详细教程文章:https://ai.feishu.cn/wiki/CUsOwcImPi9mjqkhf4ecQqdsnqf

核心发现:Claude Code不只是个AI助手,它是个完整的AI编排平台。

Image

以下流程只是老金我自己定的,你可以任意修改它的工作流,在什么时候调用什么都很自由。

A、Cluade开始

Image

B、Codex写代码

Image

C、Gemini审核

Image

5种编排方式(简要说明,基于ClaudeCode所有功能模块)

方式1:Command(Slash命令)- 最适合新手

  • 适用场景:流程固定的简单任务(如"分析→生成→审查")
  • 优势:简单易用,一条命令搞定
  • 案例:/ai-team "实现登录功能"

方式2:MCP(Model Context Protocol)- 最标准

  • 适用场景:需要上下文连续性的复杂项目
  • 优势:三个AI共享同一个对话上下文
  • 关键:conversationId机制实现真正协作

方式3:Skill(技能包)- 最灵活

  • 适用场景:可复用的工作流程
  • 优势:保存中间结果,错误重试
  • 适合:复杂的RBAC权限系统等

方式4:Subagent(子智能体)- 最快

  • 适用场景:独立模块并行开发
  • 优势:前后端同时开工,速度翻倍
  • 成本:预算需要充足(并行调用多个模型)

方式5:Hooks(钩子)- 最自动化

  • 适用场景:Git提交前自动质检
  • 优势:零手动干预,全自动化
  • 案例:每次commit前自动调用Gemini审查代码

老金推荐的组合方案

日常开发:用MCP方式(上下文连续)

  • Claude分析需求
  • Codex生成代码
  • Gemini审查质量
  • 三个AI看得到之前所有对话历史

紧急任务:用Subagent并行(速度最快)

  • 同时开工前后端
  • 各自调用最适合的AI
  • 10分钟完成原本1小时的活

自动化:用Hooks(省心省力)

  • Git提交前自动审查
  • 发现问题立即提示
  • 不用手动调Gemini

实际效果对比

没用编排前:

  • 手动复制粘贴30次/天
  • 容易遗漏审查步骤
  • 平均每个功能开发2小时

用编排后:

  • 零手动复制粘贴
  • 自动化审查,零遗漏
  • 平均每个功能开发40分钟(省50%+时间)

关键是:

  • 三个AI能互相看到对方的输出
  • 不需要老金我来回传话
  • 质量提升(Gemini审查不会被遗漏)

开源项目包含什么

老金我这个开源项目里包含:

1、完整的CLI工具安装配置教程

  • Claude Code、Codex CLI、Gemini CLI
  • 一键配置脚本(cc switch 开源工具)

2、5种编排方式的完整代码

  • 每种方式都有详细注释
  • 真实案例(登录功能、RBAC权限系统)
  • 踩坑记录和避坑指南

三巨头到底谁会赢?

老金我的判断是:短期内谁也赢不了,长期看OpenAI优势最大。

原因:

  • OpenAI资金最雄厚(微软撑腰),能持续烧钱
  • Google有搜索数据优势,但商业化能力弱
  • Anthropic技术最强(Claude编程能力第一),但钱不够多

对用户来说:

  • 短期:三家竞争,用户受益(价格降低、功能提升)
  • 长期:可能出现寡头垄断(类似当年浏览器大战)

老金的建议:

  • 别押宝一个模型,三个都学会用
  • 数据别绑死在一个平台(随时能迁移)
  • 关注开源模型(说不定哪天就崛起了)

总结:不选了,全都要

这周测下来,老金我的结论很简单:

如果你只能选一个:

  • 程序员 → Claude Opus 4.5
  • 写作/分析 → GPT-5.2
  • 日常使用/省钱 → Gemini 3

如果你能全用(推荐):

  • Gemini 3(免费)处理70%日常需求
  • Claude(中转)处理20%编程需求
  • GPT(中转)处理10%复杂推理

关键是:

  • 别被订阅绑死(中转更灵活)
  • 别只用一个模型(各有优缺点)
  • 别怕麻烦(省钱就是要折腾)

AI这东西,现在就是"三国杀",你押宝一个就是赌。

全都用,才是最稳的策略。


参考来源:

  • TechCrunch: OpenAI fires back at Google with GPT-5.2 after 'code red' memo
  • Fortune: OpenAI debuts GPT-5.2 in effort to silence concerns
  • R&D World: How GPT-5.2 stacks up against Gemini 3.0 and Claude Opus 4.5
  • Kilo.ai: We Tested GPT-5.2/Pro vs. Opus 4.5 vs. Gemini 3
  • Cursor IDE: GPT-5.2 vs Claude Opus 4.5 Coding Benchmark

往期推荐:

提示词工工程(Prompt Engineering)

LLMOPS(大语言模运维平台)

WX机器人教程列表

AI绘画教程列表

AI编程教程列表


谢谢你读我的文章。

如果觉得不错,随手点个赞、在看、转发三连吧🙂

如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址:

https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐