图片

12月11日,OpenAI在成立十周年之际发布了GPT 5.2,这是一次显著的能力提升。距离上一代GPT 5.1发布仅仅一个月,新模型就火速上线,直接瞄准谷歌Gemini 3 Pro展开反击。这次更新在做表格、写代码、理解长文档、处理复杂项目等实用领域全面优化,成为职场人士的得力助手。在ARC-AGI测试中,GPT 5.2 Pro接近九成的得分超越了Gemini 3 Pro,在性能评测中位居前列。

图片

GPT 5.2并非单一模型,而是推出了三个版本组成的“全家桶”:

GPT 5.2 Instant(即时版):主打快速响应,适合日常信息搜索、技术文档编写和翻译等轻量级任务。知识库更新至2025年8月,保证信息的时效性。

GPT 5.2 Thinking(思考版):专为复杂任务设计,在电子表格建模、财务分析、PPT制作、代码编写等专业领域表现出色。相比GPT 5.1,在投行分析师的表格建模任务上,得分从59.1%跳升到68.4%,提升达9.3%。

GPT 5.2 Pro(专业版):作为系列中性能高的版本,针对高难度的科学问题和复杂编程任务。在研究生水平的GPQA Diamond评测中拿下约93%的高分,错误率明显降低,更适合需要高准确度的专业场景。

所有版本都支持40万token的上下文窗口,支持64000 token的输出长度,轻松处理超长文档和复杂对话。

图片

GPT 5.2最大的亮点在于它在专家级任务中接近人类水平。在GDPval知识工作测试中,该测试涵盖了美国 GDP 贡献最大的前9大行业的 44 种职业领域,需要完成人类专家4-8小时才能完成的工作。结果显示,GPT 5.2 Thinking在七成场景中打平或胜过人类专家,而且速度是专家的十一倍,成本仅百分之一。

具体到实际工作场景,表现更是惊艳。

图片

做人力资源表格?GPT 5.2 Thinking能以资深分析师的角色,生成复杂的职位规划表格,包括所有计算和时间线可视化。而上一代GPT 5.1还会留白大片单元格,出现各种计算错误。

制作股权结构表?GPT 5.2 Thinking可以正确计算种子轮、A轮、B轮的清算优先权,并将所有公式和计算过程清晰可查。制作项目管理甘特图?它能按任务和时间轴给出直观的可视化总结。

对于普通打工人而言,这意味着一个AI助手真正能帮你分担核心工作,而不是只能做些边缘性的辅助任务。有测试者评价,这已经看起来像“专业公司员工完成的作品”。

编程能力大幅优化,获开发者积极反馈

图片

代码能力一直是GPT系列的强项,这次GPT 5.2再次刷新纪录。在SWE-Bench Pro这个更贴近真实工业场景的软件工程评测上,GPT 5.2 Thinking拿下55.6%的新高。这个评测不止测试Python,还包括JavaScript、TypeScript和Go等多种编程语言,更具挑战性和抗污染能力。

在SWE-bench Verified上,GPT 5.2 Thinking也达到了80%的高分,这意味着它可以更可靠地调试生产环境代码、实现功能需求、重构大型代码库。

特别值得一提的是前端开发能力的提升。早期测试者反馈,GPT 5.2在前端开发和复杂UI工作上明显更强,尤其是涉及3D元素的场景。仅凭一段提示词,它就能生成完整的网页版波浪模拟器、节日贺卡制作器、打字雨游戏等交互应用。以下是它根据单条提示词即可生成的部分示例:

图片

图片

这对全栈开发者来说是个福音,以后做原型验证或小工具开发,速度将大幅提升。

视觉理解与长文档处理双双升级

GPT 5.2在视觉能力上也实现了质的飞跃。在科学论文图表理解上,错误率大约降低了一半。更关键的是,它对图像中元素的空间位置有了更强的把握。在主板组件识别任务中,GPT 5.2能准确标记出更多元件的位置,而GPT 5.1还只能标记几个主要部分。

图片

对于金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流,这意味着更准确地解读仪表板、产品截图、技术图表和视觉报告。

长文档处理是这次升级的另一个重头戏。在OpenAI自制的大海捉针MRCRv2评测中,GPT 5.2 Thinking成为首个在256k上下文4针版上达到接近100%准确率的模型。这对于需要处理长报告、合同、研究论文、多文件项目的专业人士来说,是个巨大的福音。

值得一提的是,GPT 5.2 Thinking还兼容简洁回复模式,能够处理更多工具密集型、长时间运行的工作流,进一步扩展了有效上下文窗口。

对决Gemini 3 Pro:各有千秋,竞争激烈

GPT 5.2的快速发布被外界视为对谷歌Gemini 3 Pro的直接回应。据报道,OpenAI CEO Sam Altman曾发起内部“红色警报”,要求加速发布以应对竞争压力。

从测试数据看,两个模型各有千秋:

推理能力:在ARC-AGI-2这个测试真实推理能力的基准上,GPT 5.2 Pro以54.2%的得分明显领先Gemini 3 Deep Think的45.1%。ARC-AGI组织者表示,这证明推理AI已展示出真正的“流体智力”。

科学问答:在GPQA Diamond研究生水平测试中,Gemini 3以约94%略领先GPT 5.2 Pro的约93%,双方几乎打成平手。

编程能力:在SWE-Bench Pro上,GPT 5.2 Thinking的55.6%明显高于Gemini 3 Pro的43.3%。但在SWE-bench Verified上,Anthropic的Claude Opus 4.5仍以80.9%的分数保持领先,GPT 5.2 Thinking以80.0%紧追其后,Gemini 3 Pro为76.2%。

长上下文:Gemini 3 Pro拥有100万token的上下文窗口,支持64000 token输出,在超长文本处理上有一定优势。而GPT 5.2的40万token上下文和12.8万token输出也能满足绝大多数场景需求。

多模态能力:Gemini 3 Pro在视频和音频理解等多模态任务上表现优异,这是GPT 5.2目前缺少的能力。

图片

总体来看,GPT 5.2在通用推理、代码编写和实际工作任务上更具优势,而Gemini 3 Pro在多模态和超长上下文上有所长。用户可以根据自己的具体需求选择。

幕后团队与使用成本

GPT 5.2的开发团队中,有多位华人科学家做出了核心贡献。北大数院校友Yu Bai(斯坦福统计学博士)于2024年5月加入OpenAI,是项目的主要负责人之一。棅松(北大数院校友、UC伯克利助理教授)于2025年5月暂离学校加入OpenAI。此外还有Yaodong Yu、Yufeng Zhang等多位数学专业出身的研究员加入。这也解释了为何GPT 5.2在数学和逻辑推理上表现如此出色。

在价格方面,性能提升也带来了成本上涨。相比GPT 5/5.1,GPT 5.2的输入输出价格贵了40%。但考虑到其在工作效率上的提升,对于企业用户和专业人士来说,性价比依然具有吸引力。目前,GPT 5.2已对ChatGPT Plus、Pro、Business和Enterprise用户开放,开发者也可以通过API访问。

值得关注的是,OpenAI还在推进代号为“Garlic”的项目,预计将在2026年初以GPT 5.5的形式发布,专注于创建更小、更高效的模型,进一步降低计算成本和响应时间。

AI竞争白热化,用户是最大赢家

GPT 5.2的发布标志着AI行业竞争进入白热化阶段。OpenAI、谷歌和Anthropic之间的技术竞赛,正在大幅加快 AI能力的进步。从上一代到这一代仅用30天,迭代速度显著加快。

对于普通用户来说,这场竞争带来的是实实在在的好处。AI模型不再只是“看起来很厉害”的演示工具,而是真正能帮助处理复杂工作、提升效率的得力助手。无论你是程序员、设计师、分析师还是内容创作者,GPT 5.2都能在你的工作流中发挥实际价值。

图片

随着AI能力的不断提升,我们或许正在见证一个全新工作时代的到来。在这个时代,人类与 AI 的协作将成为常态,而掌握如何有效使用这些工具,将成为职场人士的必备技能。

社区地址

OpenCSG社区:https://opencsg.com

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

更多推荐

图片

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐