引言:从"死星"到"图表乌龙"的落差

当Sam Altman在推特上放出《星球大战》死星图暗示GPT-5时,嚯当时科技圈沸腾了,人们期待看到能碾压"旧AI范式"终极武器的到来。然而发布会现场,OpenAI工程师用一张错位的柱状图(将52.8%误标为69.1%),这多么尴尬,这场乌龙"委婉"揭示了真相:这次升级更像是iPhone 15到iPhone 16的迭代,而非iPhone到Vision Pro的颠覆。

错误的数据

实际上的

技术解析:进步与争议

1. 架构:"三位一体"的MoE模式

GPT-5本质上是由三个子系统组成的混合专家模型(MoE):

   推理引擎(1250亿参数):专攻数学证明和代码生成

   创意模块(860亿参数):负责文学创作和对话

   校验网络:类似AlphaGo的"裁判"角色

 其中“路由机制”的优化是最大亮点。当用户提问"用Python实现快速排序"时,系统会像机场塔台调度般,将任务精准分配给"推理引擎"(90%权重)+ "创意模块"(10%权重用于注释书写)。对比测试显示,其SWE-bench编程基准达到74.9%,比GPT-4提升23个百分点。

2. 性能的优缺点

  优势领域:复杂项目开发,智能代理任务,调试大型码库,算法设计等

      在LeetCode周赛中可以击败85%的人类程序员

      能自动修复PyTorch代码中的CUDA内存泄漏bug

  顽固短板:写作内容创建等

       当GPT-5要求模仿鲁迅风格写"当代孔乙己"时,却产出这样的段落:

"他排出九文大钱,用区块链钱包扫码支付时,手指在冷冽的NFT界面上微微发抖..."

   (对比测试的GPT-4.5版至少知道用"青白脸色"这类典型意象,而GPT-5反而退步到堆砌科技名词)

3. 多模态的模糊

     尽管宣传视频展示GPT-5能解读CT影像,但实际测试中却出现如下状况:

         把MRI脑部扫描图的左右半球镜像搞混淆

         无法区分毕加索《格尔尼卡》与儿童涂鸦的情感之间的表达差异

华人研究员Liang Chen在GitHub指出:"当前视觉模块本质上是给图像打标签的增强版CLIP模型。"

商业策略:价格战背后的焦虑

OpenAI这次价格偏低:

争议操作:

强制开发者6个月内迁移旧模型(换新的意思),从而引发抗议,目前Reddit上已有3000+抗议帖

 被发现在API条款中新增"输出内容可用于模型训练"的隐藏条款。AI伦理研究员Timnit Gebru尖锐评价:"这就像卖给你一台相机,却保留随时查看你相册的权利。"

行业影响:LLM的天花板现象

1. 性能趋同困局

     在MMLU综合测试中,GPT-5与Claude 4 Opus和Gemini 2.5 Pro比拼数据对比,如图。

2. 开源势力的猛烈发展

    Meta最新开源的Llama 3-400B在Hugging Face排行榜超越GPT-4 Turbo,然而训练成本仅为前者的1/7。看来开源模型正在降低训练成本以达到快速商品化大模型能力。

用户指南:需把钢用在刀刃上

   开发者必试功能,看看好不好用:

       "代码手术刀"模式:用自然语言指令直接修改GitHub仓库(实测重构Flask项目效率能提升40%)

        长上下文彩蛋:在128k窗口输入《三体》全文后,是可以准确回答"云天明的大脑发射日期"等细节问题

给普通用户的小建议:

    免费版足够应付日常邮件润色/简单问答

    不过20美元/月的Pro版性价比存疑,除非需要高频调用API,这样才划算

结语:AGI不应该只是一个噱头,想要真正踏入AGI时代,更要落实行动才有成果

        Yann LeCun的预言正在应验:"用更大规模的LLM追求AGI,就像造更高的巴别塔。"当我们看到:

GPT-5仍会坚信"华盛顿是唐朝皇帝"这类基础常识的事实错误,还有其"思维链"本质上是概率抽卡产生的精致幻觉

那么或许我们该把目光投向更底层的突破:

1.神经符号系统(如DeepMind的AlphaGeometry)

2.世界模型构建(特斯拉的Occupancy Networks)

3. 合成数据革命(Anthropic的宪法AI)

最后引入一位知乎用户的妙喻:"GPT-5像是能背诵《辞海》的学者,但离'理解'世界如同婴儿还在蹒跚学步。"

还想了解更多AI知识么?更多讨论,咨讯尽在“AI共学苑”,欢迎大家加入

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐