加我进AI讨论学习群,公众号右下角“联系方式”

文末有老金的 开源知识库地址·全免费


昨晚凌晨2点,OpenAI偷偷摸摸上线了GPT-5.2。

没发布会,没预热,甚至连个官方推特都没发。

作为老金最喜欢的模型,没有之一的,必须要来写一波。

Image

这波操作,反常得有点离谱。

后来老金我扒了一下,发现背后有个大瓜:

OpenAI被谷歌逼急了,内部直接拉响了"Code Red"(红色警报)。

Code Red:被Gemini 3干懵了

事情要从11月25日说起。

那天,谷歌突然发布了Gemini 3,带着Deep Think模式杀进来了。

OpenAI内部炸了锅。

Sam Altman发了一封内部邮件,标题就俩字:Code Red(紧急状态)。

Image

邮件核心内容是:我们必须在12月中旬之前发布GPT-5.2,不能让谷歌抢走风头。

有意思的是,OpenAI的工程师们其实不太乐意。

他们觉得GPT-5.2还需要再打磨打磨,至少再等一两个月。

但没办法,竞争压力在那摆着呢。

所以你看到的GPT-5.2,其实是一个"被催熟"的版本。

这也解释了为什么这次发布这么低调——他们自己心里也没底。

GPT-5.2到底强在哪?

别看发布低调,产品本身还是有料的。

先看一张OpenAI官方的跑分对比表:

Image

从表格能看出来,GPT-5.2在SWE-Bench Pro(软件工程)、GPQA Diamond(科学问题)、AIME 2025(数学竞赛)这些传统评测上,确实又强了一些,回到了第一的位置。

但老金我得说,这些提升,普通人真不一定能感觉出来。

下面说几个核心亮点:

幻觉减少38%

这是最实在的提升。

幻觉(Hallucination),说人话就是AI一本正经地胡说八道。

以前用ChatGPT,最头疼的就是这个。

问它一个事实性问题,它能给你编出一个看起来特别真的假答案。

Image

GPT-5.2在这方面下了功夫,官方说幻觉率比GPT-5.1降低了38%。

38%是什么概念?

假设以前10次回答里有2-3次瞎编,现在大概1-2次。

虽然还是会出错,但确实好了不少。

而且现在它不确定的时候,会主动说"我不太确定",不像以前那么能装了。

上下文窗口40万token

这个数字有点猛。

上下文窗口(Context Window),简单说就是AI一次能"看"多少内容。

40万token大概相当于一本30万字的小说。

你可以把整本书丢给它,让它帮你总结、分析、找关键信息。

以前处理长文档要分好几次,现在一次搞定。

Image

最大输出12.8万token

输出能力也提升了,最多能输出12.8万token。

写长文章、生成完整代码、输出详细报告,都不用担心被截断了。

知识截止日期更新

知识库更新到了2025年8月31日。

比之前的版本新了好几个月,能聊更多最近的事了。

完整参数信息看这张图:

Image

两个真正牛逼的评测:ARC-AGI-2和GDPval

前面讲的那些技术参数,老金我先给你泼盆冷水。

跑分强了,实际用起来能强多少?

说实话,很难说。

你去问问身边用ChatGPT的朋友:"GPT-5.2比5.1强在哪?"

大概率他们答不上来,或者就说:"好像...快了点?准了点?"

这就是问题所在——纸面数据和实际体验,有时候是两码事。

举个例子:

你去健身房,教练跟你说:"这个动作能多燃烧15%的卡路里!"

练完了?还是那么累。

上秤看?体重一两都没掉。

这15%的提升,你完全体会不到,因为基数太小了。

AI跑分也一样,从85分提升到90分,听着很牛逼,用起来?差别不大。

所以老金我更关注两个评测:ARC-AGI-2和GDPval。

这俩测的不是纸面数据,是真实能力。

ARC-AGI-2:测的是真智力

传统的AI评测,比如MMLU,本质上是在考"记忆力"。

你可以理解成高考历史题:给你10道选择题,问"秦始皇统一六国是哪一年?"、"氢元素的原子序数是多少?"。

对AI来说,这些问题就是查数据库。

因为训练数据里有这些答案,AI只需要找到匹配的内容,复制粘贴就行了。

这就尴尬了:我们根本分不清AI是真的会思考,还是只是记性好。

所以,一个叫François Chollet的大佬看不下去了。

这人啥来头?

Keras的创始人,就是那个机器学习界超有名的框架。

2019年,他在论文《On the Measure of Intelligence》里,设计了一套完全不考知识、只考智商的测试:ARC。

这套测试有多变态?

跟知识储备一毛钱关系都没有。

全名:Abstraction and Reasoning Corpus(抽象与推理语料库)。

测试逻辑很简单粗暴:

不管你之前学过什么、背过什么,都没用。

给你一道从来没见过的题,看你能不能现场推理出规律,然后举一反三。

这考的是什么?

流体智力(Fluid Intelligence)。

说人话就是:在完全陌生的情况下,你能不能靠脑子想出解决办法。

这是真正的智商测试,不是背书测试。

这玩意儿对AI来说,难于登天。

因为互联网上根本没有现成答案,AI不能靠"背",只能靠"想"。

所以很长一段时间,AI在这个测试上的得分都惨不忍睹。

GPT-5.1的成绩?17.6%。

GPT-5.2呢?52.9%。

直接翻了3倍!

这数据看着就吓人。

来看看官方的排行榜数据:

Image

Image

性价比还特别高,在差不多的成本下,能力吊打其他模型。

换句话说:GPT-5.2在真正的"智商"上,已经是目前AI里的尖子生了。

如果对你有帮助,记得关注一波~

GDPval:测的是真实工作能力

第二个评测,GDPval,老金我先给你看成绩,你自己品。

Image

GPT-5.2 Thinking版:70.9%

GPT-5.2 Pro版:74.1%

GPT-5.1:38.8%

看着是不是挺高?

但你知道对比对象是谁吗?

不是实习生,不是应届生,是在行业里干了十几年的专家。

也就是说,GPT-5.2干出来的活儿,有七成的时候,能跟行业老油条打平,甚至干得更好。

这他X就离谱了。

GDPval到底测了啥?

OpenAI两个多月前搞出来的新评测标准,名字就是GDP(国内生产总值)。

核心逻辑:测AI在真实工作场景里,能不能帮人赚钱。

老金我给你翻译一下,过去那些AI跑分,测的都是:

  • 代码能力 → 程序员喜欢
  • 数学能力 → 科学家喜欢
  • 知识储备 → 学霸喜欢

Image

Image

但打工人里,程序员和科学家占比多少?5%?10%?

剩下90%的人呢?

每天对着Word写方案的运营、盯着Excel做报表的财务、翻文件找漏洞的审计、谈客户的销售……

这些人的工作,你拿MMLU、SWE-Bench这种学术评测能测出来吗?

测不出来。

所以OpenAI这次玩真的了:

  1. 1. 挑了美国GDP贡献最大的9个行业(金融、医疗、制造、法律...)

  2. 2. 找了44种职业(会计、销售、HR、审计师...)

  3. 3. 请来行业专家出题(平均工作经验14年)

  4. 4. 出了1320道真实工作任务

Image

这些任务有多真实?

老金我给你举几个例子:

  • HR岗:给你一个岗位JD,写一套完整的面试评估体系
  • 财务岗:给你一堆发票和流水账,整理成季度财报
  • 销售岗:给你客户的采购需求,写一份投标方案

Image

来看下详细的GDPval评测内容:

平均每个任务,人类专家要干7个小时。

有些复杂的,甚至要一两周。

而且这些任务全是多模态的:Word文档、Excel表格、PDF报告、PPT、图片,啥都有。

怎么评估?

OpenAI没有用打分,而是用了最直接的方式:

找另一批行业专家来盲测,他们看不到是AI做的还是人做的。

只问一个问题:"如果这是你下属交上来的,你敢直接拿给客户吗?"

结果,GPT-5.2有七成的时候,专家愿意直接拿。

老金的看法:

这才是真正有意义的评测。

以前的AI都在卷技术指标,卷程序员市场。

GPT-5.2这次终于看到了广大打工人——那些每天在办公室里跟文档、表格、报告死磕的人。

这才是能真正改变生产力的东西。

所以老金我认为,GDPval比任何跑分都重要。

上下文能力:大海捞针测试

GPT-5.2这次在处理超长文档上,也有明显进步。

有个经典测试叫"大海捞针":

在一个25万多字的超长文档里,藏4个关键信息,让AI找出来并回答问题。

GPT-5.2的成绩?100%全对。

Image

这是老金我见过的唯一一个能做到满分的模型。

即使把针增加到8个,GPT-5.2的准确率下降也不多,比GPT-5.1稳定太多了。

这意味着什么?

你可以丢给它一整本技术手册、一整年的会议记录、一整套法律文件,它都能准确找到你要的信息。

以前AI处理长文档,经常"前面的忘了"、"后面的漏了"。

GPT-5.2基本解决了这个问题。

结合起来看:

专业知识工作能力强(GDPval)+ 知识更新到8月(最新)+ 真智商高(ARC-AGI-2)+ 长文档处理准(大海捞针)。

这组合,对打工人来说,简直是量身定制的牛马搭子。

不是给科研用的,不是给极客玩的,就是给普通人干活用的。

三个版本怎么选?

这次GPT-5.2搞了三个版本,很多人看懵了。

老金我帮你捋一捋。

GPT-5.2 Instant(速度版)

特点:响应快,适合简单任务

适合场景:

  • 快速问答
  • 简单的文本生成
  • 日常聊天

价格:最便宜的

老金点评:日常聊天用这个就够了,别花冤枉钱。

GPT-5.2 Thinking(思考版)

特点:擅长复杂推理,会"深度思考"

适合场景:

  • 数学计算
  • 逻辑推理
  • 代码调试
  • 复杂问题分析

API价格:

  • 输入:$1.75 / 百万token
  • 输出:$14 / 百万token

老金点评:这个版本对标的就是谷歌的Deep Think。如果你经常需要AI帮你解决复杂问题,选这个。

GPT-5.2 Pro(专业版)

特点:最强版本,准确率最高

适合场景:

  • 专业写作
  • 企业级应用
  • 对准确性要求极高的任务

API价格:

  • 输入:$21 / 百万token
  • 输出:$168 / 百万token

老金点评:价格是真的贵。输出价格是Thinking版的12倍!除非你是企业用户或者对准确性有极高要求,否则没必要用这个。

价格对比表

老金我帮你整理成表格:

版本

输入价格

输出价格

适合人群

Instant

最低

最低

普通用户

Thinking

$1.75/M

$14/M

开发者/重度用户

Pro

$21/M

$168/M

企业用户

和竞争对手比怎么样?

既然是被Gemini 3逼出来的,那就得比一比。

vs Gemini 3

根据目前流出的跑分数据,GPT-5.2在大多数benchmark上小胜Gemini 3。

但Gemini 3的Deep Think模式在某些复杂推理任务上表现更好。

老金的看法:差距不大,各有千秋。选哪个主要看你用哪个生态。

vs Claude Opus 4.5

Claude的强项是长文本理解和代码生成。

GPT-5.2这次把上下文窗口拉到40万,在长文本这块追上来了。

代码能力的话,两边都很强,看个人习惯。

老金的看法:Claude更稳,GPT更全面。写代码我还是更习惯用Claude。

怎么用上GPT-5.2?

方法一:ChatGPT Plus

最简单的方法,开个ChatGPT Plus会员,$20/月。

登录之后,在模型选择那里就能看到GPT-5.2了。

注意:免费用户暂时用不了,要等后续开放。

方法二:API调用

开发者可以通过API调用GPT-5.2。

去OpenAI的开发者后台,申请API密钥就行。

模型名称:

  • gpt-5.2-instant
  • gpt-5.2-thinking
  • gpt-5.2-pro

方法三:第三方平台

一些第三方平台已经接入了GPT-5.2的API。

如果你不想折腾官方渠道,可以找找这些平台。

但要注意:第三方平台的稳定性和隐私保护可能没那么好,敏感内容别往上放。

老金最后说两句

GPT-5.2这次更新,老金我给80分。

好的地方:

真的在解决打工人的实际问题(GDPval),不是纯卷技术指标。

幻觉少了38%,长文档处理能力强了,这些都是实打实的提升。

不好的地方:

惊艳感确实不够,没有那种"卧槽"的感觉。

可能是被Gemini 3、Claude Opus 4.5这些模型养刁了嘴。

但有一点老金我必须说:

OpenAI这次真的看到了程序员之外的90%打工人。

律师、会计、HR、运营、销售……这些人也需要AI,也需要生产力工具。

GPT-5.2在这个方向上,走对了。


说完了,你现在应该知道怎么选了:

  • 日常用用 → Plus会员,省心
  • 高频打工 → API Thinking,便宜还不限速
  • 零容忍 → API Pro,贵但准

你要是还在犹豫,评论区留言,老金我帮你算算账。


参考来源

  • TechCrunch: OpenAI releases GPT-5.2 amid Gemini 3 competition
  • The Verge: GPT-5.2 launch details and Code Red memo
  • OpenAI官方定价页面
  • 华尔街日报: OpenAI vs Google AI competition analysis

往期推荐:

提示词工工程(Prompt Engineering)

LLMOPS(大语言模运维平台)

WX机器人教程列表

AI绘画教程列表

AI编程教程列表


谢谢你读我的文章。

如果觉得不错,随手点个赞、在看、转发三连吧🙂

如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址:

https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐