大家期待已久的 GPT-5 ,终于面世了!

LMArena全榜第一

LMArena全榜第一

目前,国内一站式AI工具平台——天意科研云,已上线 GPT-5 模型,无需魔法即可使用。

👉 天意科研云地址:ai.dftianyi.com

图片

据山姆・奥特曼介绍,GPT-5 是一个集成模型,它会根据问题自己决定什么时候需要深入思考,不需要你在各个模型中切换。

图片

目前,GPT-5 面向普通用户提供免费、Plus 及 Pro 三种使用模式。API 平台也推出了 GPT-5、GPT-5 mini 和GPT-5 nano 三款模型供选择。

图片

这一次,OpenAI 不再是挤牙膏式更新,相较于 GPT-4 系列模型,新一代模型在逻辑推理、多模态处理及编码能力等方面都有了质的飞跃。尤其在编码方面,GPT-5 在网页开发中表现已经超越了 Claude Opus 4 模型。

图片

关于 GPT-5 的编程能力,山姆・奥特曼此前也曾在 X(原推特)上发布动态,疑似在暗示 GPT-5 具备很强的编程能力。

图片

下面用一张图展示 GPT-5 与 前几代 ChatGPT 之间的关系。

图片

根据测试结果显示,GPT-5 的幻觉率大幅降低。在含至少一个重大事实错误的回答数量上,gpt-5-main 较 GPT-4o 减少 44%,而 gpt-5-thinking 则比 OpenAI o3 降低 78%。

图片

此外,GPT-5 在回答方面也更人性化,不会像 GPT-4o 那么迎合人类,和 GPT-5 对话更像是在和一位博士水平的朋友聊天。

GPT-5 性能测试

现在再来看看GPT-5的跑分情况。

AIME 0225数学竞赛中,GPT-5 在没有工具的情况下拿到了 96.7% 的高分,在使用 Python 的情况下,GPT-5 得分达到 100%。

图片

在 SWE-bench Verified 基准测试中,GPT-5 在现实世界编程能力领先 GPT-o3 和 GPT-4o。

图片

在博士级科学问题测试中,GPQA Diamond 取得 88.4% 的成绩,创下新高。而 GPT-5 Pro 版本的表现更为出色,得分达到 89.4%。

图片

GPT-5 在人类最后的考试测试中再创新高,超越了 ChatGPT Agent。

图片

在多模态理解方面,GPT-5 取得了 84.2% 的分数,其中视觉理解大幅提升。

图片

在思考模式下,GPT‑5 能用更短的思考时间创造更大价值。在视觉推理、智能体编程、研究生级科学问题解决测试中,GPT‑5 (思考模式)的性能大幅领先GPT-o3 模型,同时其输入token 量还减少了 50%-80%,这意味着 GPT-5 的性价比更高。

图片

图片

图片

网友实测体验

不少网友也纷纷上手实测,网友 @William Holmberg 只用 6 分钟就通过 GPT-5 做了一个开放世界 MMORPG 游戏。

图片

图片

还有网友用 GPT-5 做了超级玛丽游戏,还原度不错。

图片

图片

@Ethan Mollick 网友用 GPT-5 做了一款程序化的 Brutalist 风格建筑创建器,可以拖拽的方式编辑建筑。

图片

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐