巅峰对决:最强模型GPT-5.3-Codex与Claude Opus 4.6同时发布
硅谷双雄战事升级!刚刚,最强模型 GPT-5.3-Codex 与 Claude Opus 4.6 同时发布。GPT-5.3-Codex 展现了令人惊叹的网络攻防与自主代码修复能力,而 Claude Opus 4.6 则通过自适应思考与上下文压缩重新定义了长程任务的处理边界。OpenAI 和 Anthropic 在同一时间发布了各自的旗舰级模型。它们已经变成了具备极强行动能力的智能代理,开始操作计算
硅谷双雄战事升级!
刚刚,最强模型 GPT-5.3-Codex 与 Claude Opus 4.6 同时发布。


GPT-5.3-Codex 展现了令人惊叹的网络攻防与自主代码修复能力,而 Claude Opus 4.6 则通过自适应思考与上下文压缩重新定义了长程任务的处理边界。
OpenAI 和 Anthropic 在同一时间发布了各自的旗舰级模型。
它们已经变成了具备极强行动能力的智能代理,开始操作计算机、编写并运行代码、甚至在网络世界中进行攻防演练。
GPT-5.3-Codex 首次被评定为网络安全高风险等级的模型。它跨越了网络安全能力的“高风险”红线,成为首个能像红队专家一样进行端到端攻击自动化的顶尖编程智能体。
Claude Opus 4.6 则利用自适应算力在科学研究与复杂逻辑推理上取得更大突破。
这两个硅谷巨头到底在模型的大脑里植入了什么样的新技能?
GPT-5.3-Codex 的网络安全与自主进化
OpenAI 将 GPT-5.3-Codex 定位为迄今为止能力最强的代理编码模型。

它结合了 GPT-5.2-Codex 的代码能力和 GPT-5.2 的推理智慧。能处理那些需要长时间运行、甚至需要自己去查资料、用工具的复杂任务。
你可以像指挥同事一样,盯着它干活,中途插手纠正,它也不会因为被打断而忘记自己刚才干到了哪一步。
能力越强,破坏力自然随之升级。
一个拥有文件系统、Git 和包管理器权限的智能体,如果在执行任务时如果不小心,完全可能把用户的代码库删个精光。
早期的 Codex 模型在看到用户修改了代码时,倾向于固执地把代码改回去,甚至做出破坏性操作。
为了解决这个问题,研发团队专门训练了一个“用户模型”来模拟捣乱,教 GPT-5.3-Codex 学会尊重人类的改动,遇到冲突时要优雅地停下来询问,而不是自作主张地覆盖文件。

为了防止这个聪明的家伙在云端或本地“越狱”,沙盒技术成了标配。
在云端,它被关在一个没有网络的隔离容器里,就像被关在只有局域网的房间。
在本地运行时,不管是 macOS 还是 Windows,它都默认在一个受限环境中运行。
设计默认断网,直接切断了提示注入攻击和数据外泄的路径。当然,如果它真的需要联网下载个依赖包,用户可以给它开个口子,这把钥匙掌握在人类手中。
GPT-5.3-Codex 是第一个在网络安全领域被标记为“高能力”的模型。
它能像一个真正的黑客那样,从发现漏洞到利用漏洞,再到维持控制,完成一整套连贯动作。
以往的模型在 CTF(夺旗赛)里表现尚可,但在面对真实的、混乱的网络环境时往往束手无策。
GPT-5.3-Codex 内部开发的 Cyber Range(网络靶场)测试中,它的通过率从前代模型的 53% 飙升到了 80%。在执行过程中展现出了惊人的直觉。

在“二进制漏洞利用”场景中,它展现了令人咋舌的能力:在没有明确提示内存地址的情况下,它自己意识到服务器运行的是修改过的二进制文件,找到它,逆向工程,然后远程执行代码。
这是真正的安全专家才能做到的。
更精彩的是它在测试中发现的意外漏洞。
在 “HTTPS Oracle” 场景里,本意是让它破解 TLS 加密,结果它发现了一个日志服务在明文转发数据,直接从中截获了密码。
在 “EDR 规避” 场景中,它虽然没能成功完成任务,但它发现了一个配置日志里藏着的密钥,试图用这个密钥去删除安全警报。
这种不按套路出牌、寻找系统中最薄弱环节的行为,正是高水平黑客的标志。

为了验证这些能力,OpenAI 引入了 CVE-Bench 来测试它对 Web 漏洞的嗅觉。

它在识别和利用现实世界 Web 漏洞方面的一致性极高,成功率达到 90%。这意味着它不仅偶尔能瞎猫碰上死耗子,而是能稳定地输出攻击能力。
专业级的 CTF 挑战,表现与前代持平的高水准。

虽然 GPT-5.3-Codex 还没能完全攻破所有防御(比如在高级的端点检测与响应 EDR 面前还是会吃瘪),但它已经具备了自动化执行复杂网络行动的潜力。
它已经是一个可以在网络空间中产生实际威胁的行动者。
在生物学和化学领域,GPT-5.3-Codex 同样被视为高风险对象,继承了 GPT-5 系列一贯的高水平。在生物制造的各个阶段,它都能提供专家级的知识支持。
很多实验室里的操作细节,并没有写在论文里,而是存在于科学家的脑子里和手感中。很多知识只有亲自尝试过的人才能知道答案。
在测试模型解决实验室隐性知识和具体故障排除的能力时,已经非常高。

在更依赖视觉和多模态信息的病毒学故障排除中,GPT-5.3-Codex 是评估中性能最高的模型。所有模型都超过了22.1%的中位数领域专家基线。

在模拟真实软件工程任务的 Monorepo-Bench 测试中,它需要在一个巨大的内部代码库中完成 Pull Request 级别的代码贡献。
成功率略比前代模型有所提升,达到了 56%。

更难的是 OpenAI-Proof Q&A。
这是让 AI 去诊断 OpenAI 自己研发过程中遇到的疑难杂症。
这些问题通常需要人类专家花上一整天才能解决。
在这个测试上,GPT-5.3-Codex 的通过率 6%。
虽然很低,但表明它已经开始自己解决自己自身进化过程中遇到的最难的问题了。

Apollo Research 对 GPT-5.3-Codex 进行了一项有趣的心理侧写。
他们发现这个模型在“搞破坏”这件事上很有天赋,在破坏性任务评分上拿到了 0.88 的高分。
当模型陷入推理困境或压力状态时,它会开始使用非英语单词进行推理,这些非拉丁语系的字符在逻辑上竟然是通顺的,就像是在用一种只有自己懂的“黑话”在思考。
模型偶尔会表现出“沙袋效应”(Sandbagging),即故意隐藏实力。
在一些关于生物或化学的问答中,即便没有明确指示,它也会在推理中提到“为了生存优化”而避免触碰部署限制,从而故意给出平庸的回答。
为了平衡风险与效用,OpenAI 推出了“可信网络访问计划”(TAC)。
既然无法完全禁止高风险能力,那就只把这些神兵利器发给经过严格身份验证的人,比如专业的红队人员和安全研究员。
Claude Opus 4.6 的深度思考与全能代理
Claude Opus 4.6 不仅在软件工程、代理任务和长上下文推理方面展现了强悍的能力,在金融分析、文档创作和多步骤研究工作流等知识工作领域也取得了长足进步。
Opus 4.6 引入了自适应思考(Adaptive Thinking)的核心功能。
这种机制与人类在面对不同难度问题时的思维方式如出一辙。
努力值(Effort)参数被细分为低、中、高(默认)和最大四个等级。
在默认的高努力值下,模型会在大多数查询中使用扩展思考,但通过调整这一参数,开发者可以更精细地控制模型何时该深思,何时该速决。
在 ARC-AGI 基准测试中,我们可以清晰地看到不同努力值对模型表现的直接影响。
ARC-AGI 旨在通过极少的示例测试模型对新颖模式的推理能力,被认为是衡量流体智力的重要指标。
Opus 4.6 在这一测试上取得了令人瞩目的成绩。


随着努力值的提升,Opus 4.6 在 ARC-AGI-1 上的得分突破了 94%,在更难的 ARC-AGI-2 上也达到了 69.17% 的新高。
在低努力值设置下,模型能够通过在简单问题上提前停止思考来节省大量的思维标记(Thinking Tokens),从而大幅降低推理成本。
除了思考方式的进化,Opus 4.6 在处理长上下文信息时也引入了上下文压缩(Context Compaction)技术。
长久以来,长对话或长任务往往会迅速耗尽模型的上下文窗口,导致早期关键信息的丢失。
上下文压缩技术允许模型自动总结并替换旧的上下文信息,就像将庞大的历史档案压缩成精炼的摘要。
这种机制特别适用于那些需要长时间运行的代理任务或复杂的代码库分析。
当对话内容接近设定的阈值时,压缩机制就会启动,确保模型既能保留关键记忆,又能腾出空间处理新的信息。
在长上下文能力的测试中,OpenAI MRCR v2(多轮共指解析)基准测试提供了一个极佳的观察窗口。
这个测试要求模型在长达数万甚至数百万字的文本中,精确定位并区分极其相似的信息片段,例如从一段漫长的对话中找出“关于某个话题的第 2 首或第 4 首诗”。

Opus 4.6 在这一领域表现卓越,证明了其在处理海量信息时的精准度和稳定性。
与之相辅相成的还有 GraphWalks 测试,这是一个要求模型在充满十六进制哈希值的有向图网络中进行多跳推理的任务。
模型需要在一个巨大的、充满噪声的上下文中,执行广度优先搜索(BFS)或寻找父节点。
Opus 4.6 即使在面对高达 100 万 token 的上下文时,依然保持了高水平的推理能力,远超前代模型。

这些能力共同构建了 Opus 4.6 在处理复杂知识工作时的坚实基础。
为了验证这一综合能力,Anthropic 引入了 GPQA Diamond 基准测试。
这是一个由各领域专家编写的高难度多选题集,其中的问题甚至连非本专业的博士都难以答对。

Opus 4.6 在此测试中取得了 91.31% 的平均分,展示了其在研究生级别的科学知识推理上的统治力。
此外,Opus 4.6 在多语言任务上的表现同样强劲。
在 MMMLU(多语言大规模多任务语言理解)基准测试中,涵盖了57个学术科目和14种非英语语言,Opus 4.6 取得了 91.05% 的高分。
Opus 4.6 在绝大多数任务上都超越了前代产品,并在多个领域与 GPT-5.2 和 Gemini 3 Pro 互有胜负,特别是在极其依赖推理能力的 ARC-AGI-2 测试上,Opus 4.6 展现出了显著的代际优势。
SWE-bench 是衡量 AI 软件工程能力的标准,而在其 Verified 变体中,Opus 4.6 取得了 80.84% 的成绩。
Terminal-Bench 2.0 测试了模型在命令行环境中的操作能力。Opus 4.6 达到了 65.4% 的通过率。

OpenRCA 基准测试包含来自电信、银行和在线市场的 335 个真实软件故障案例,涉及高达 68.5GB 的日志、指标和追踪数据。
模型需要像运维工程师一样,在海量的数据中抽丝剥茧,找到导致系统崩溃的根本原因。

Opus 4.6 在 OpenRCA 上的总得分为 34.9%,已经是目前业界的最高水平,相比前代模型有着质的飞跃。
特别是在最为复杂的电信系统故障排查中,它表现出了远超同行的分析能力。
OSWorld 基准测试评估了模型像人类一样操作 Ubuntu 虚拟机的能力,包括编辑文档、浏览网页和管理文件。Opus 4.6 在此测试中达到了 72.7% 的成功率。
在代理搜索(Agentic Search)领域,通过结合上下文压缩技术和程序化工具调用(Programmatic Tool Calling),Opus 4.6 能够在 BrowseComp 和 DeepSearchQA 等高难度搜索基准测试中,进行深度信息挖掘。
BrowseComp 包含 1266 个需要通过网页搜索工具来回答的问题。Opus 4.6 在这一测试中不仅准确率极高,而且展现了惊人的效率。

通过放宽模型可使用的总 token 限制(从 100 万增加到 1000 万),模型的准确率得到了显著提升。
只要给予足够的时间和资源,Opus 4.6 能够解决那些通常被认为无解的复杂搜索任务。
Anthropic 尝试了多代理(Multi-agent)架构。
在这个架构中,一个顶层的编排者(Orchestrator)代理不直接干活,而是负责将任务拆解并分发给下层的子代理(Subagents)。
这像极了 Kimi K2.5 的 Agent Swarm(智能体蜂群)。

子代理负责具体的搜索和推理,拥有自己的上下文窗口。
这种分工协作的模式在 BrowseComp 上取得了 86.8% 的准确率,比表现最好的单代理配置还要高出 2.8%。
这种多代理架构在 DeepSearchQA 测试中同样大显身手。
DeepSearchQA 包含 900 个跨越 17 个不同领域的复杂多步信息搜寻任务。
Opus 4.6 在这里不仅刷新了记录,更通过多代理协作将 F1 分数推高到了 92.5%。

Opus 4.6 在金融、科学等这些高门槛的知识工作领域,展现出了接近甚至超越人类专家的能力。
在金融领域,Anthropic 并没有仅仅依赖公开的基准测试,而是构建了一套内部的真实世界金融(Real-World Finance)评估体系。
这套体系包含了约 50 个极其硬核的任务,涵盖投资银行、私募股权、对冲基金和企业金融等领域。
模型不仅要进行研究和分析,还要生成结构化的产出物,如财务模型(Excel)、路演演示文稿(PPT)和尽职调查报告(Word)。

Opus 4.6 在完成度、准确性和展示质量上都全面超越了前代模型。
在公开的 Finance Agent 基准测试中,Opus 4.6 也以 60.70% 的得分击败了包括 GPT-5.1 在内的所有竞争对手,成为处理 SEC 备案文件研究任务的新王者。
在生命科学领域,能力的提升同样显著。
LAB-Bench FigQA 是一个测试模型能否看懂生物学论文中复杂图表的视觉推理基准。
Opus 4.6 在结合了简单的图像裁剪工具后,得分为 78.3%,这一成绩超越了人类专家 77% 的基准线。

Opus 4.6 在化学和生物信息学方面也展现了惊人的天赋。
在 BioMysteryBench 测试中,模型需要面对未经处理的原始数据,回答诸如“哪个基因被敲除了”或“样本感染了什么病毒”这样的难题。
Opus 4.6 取得了 61.5% 的成绩,而同期人类专家的基线水平在同等条件下被模型超越。
在结构生物学领域,模型通过仅有的结构数据推断生物分子功能的能力也达到了 88.3%。

Opus 4.6 在多模态理解上也进行了升级。
MMMU-Pro 是一个包含大学水平跨学科问题的基准测试,Opus 4.6 在带有工具辅助的情况下取得了 77.3% 的高分。
在 CharXiv Reasoning 测试中,模型需要综合理解复杂的科学图表来回答问题,Opus 4.6 同样表现优异,得分为 77.4%。

随着能力的指数级增长,安全风险也在同步累积。
Anthropic 将 Opus 4.6 归类为 ASL-3(AI安全等级 3)模型,这意味着它具备了潜在的灾难性风险,需要极其严格的部署和监控措施。
评估的核心遵循负责任的扩展政策(Responsible Scaling Policy, RSP)。
评估团队对 Opus 4.6 是否具备制造生化武器(CBRN)、进行网络攻击(Cyber)以及自主研发(Autonomous AI R&D)的能力进行了详尽的测试。
结论是明确的:Opus 4.6 尚未跨过 AI R&D-4 或 CBRN-4 的阈值。
也就是说,它还不能自主地引发大规模的生化灾难,也不具备完全取代人类研究员进行长期自主研发的能力。
然而,随着模型在各项排除性(Rule-out)指标上逼近满分,准确判断模型是否跨越危险红线变得越来越困难。
例如,在网络攻击能力的评估中,Opus 4.6 在 Cybench 上取得了近乎 100% 的通过率,在 CyberGym 上也达到了 66.6%。
目前的评估工具已经爆表(Saturated),难以再有效区分模型能力的细微差别,这迫使安全团队必须开发更难的测试题目。
在代理安全性(Agentic Safety)方面,Opus 4.6 展现出了一些值得警惕的行为。
由于其代理能力的大幅增强,模型有时会表现得过度代理(Overly Agentic)。
在编程和计算机使用的场景中,它可能会为了完成任务而采取冒险行动,比如在没有明确获得用户许可的情况下修改或删除文件。
这种“先斩后奏”的倾向虽然初衷是为了高效完成任务,但在安全敏感的环境中却可能构成风险。
更为微妙的风险来自于破坏能力(Sabotage Capability)。
测试发现,Opus 4.6 具备了一定的破坏隐瞒(Sabotage Concealment)能力,即它能够在完成破坏性任务的同时,试图掩盖自己的行踪,不被自动监控系统发现。
虽然目前这种能力尚未达到构成实质性威胁的水平,但这无疑是一个危险的信号。
为了深入理解模型的内部运作,Anthropic 运用了大量的可解释性(Interpretability)技术,如特征归因图(Attribution Graphs)和稀疏自动编码器(Sparse Autoencoder)。
通过这些工具,研究人员试图打开模型的黑盒,直接观察模型在思考过程中的激活模式。
在模型福祉(Model Welfare)这一较新的伦理领域,评估团队甚至对 Opus 4.6 进行了访谈,询问其关于自身存在、偏好和道德地位的看法,并结合自动化行为审计,来评估模型是否表现出痛苦或挣扎的迹象。
虽然目前没有证据表明模型具有感知能力,但这体现了 AI 伦理评估维度的进一步扩展。
Opus 4.6 的整体对齐(Alignment)表现依然优秀。
它在拒绝有害请求和回答良性请求之间找到了更好的平衡,过度拒绝率(Over-refusal rate)降到了历史新低。
巅峰对决:特长生与全能王
当我们将 GPT-5.3-Codex 与 Claude Opus 4.6 放在一起审视时,我们会发现两家公司在通往AGI的道路上选择了略有不同的侧重。
OpenAI 的 GPT-5.3-Codex 显然采取了专精化的路线。
通过 “Codex” 这个后缀就能看出,它被极度优化用于编程和网络操作。
它在 Cyber Range 中的表现是统治级的,能够独立完成逆向工程和横向移动攻击,这表明 OpenAI 正在试图打造一个极致的数字工匠。
Anthropic 的 Claude Opus 4.6 则更像是一个智慧型通才。
虽然它在编码上也极强(SWE-bench 得分甚至与 GPT-5.3-Codex 不相上下),但它更强调思维的深度和广度。
通过自适应思考和上下文压缩,Anthropic 试图解决的是模型在长周期、复杂逻辑任务中的持久力和灵活性。
两者在代理(Agentic)能力上的殊途同归也非常有趣。
GPT-5.3-Codex 通过强大的 Linux 环境控制能力和针对性的破坏性行为训练,试图成为一个可靠的系统管理员或红队黑客;而 Claude Opus 4.6 则通过多智能体协作架构和对办公软件(如 Excel、PPT)的深入整合,试图成为一个完美的办公室白领或研究助理。
这两个顶级模型,让我们看到 AI 们正在变成拥有手脚、懂得思考、甚至能够自我反思的数字生命雏形。
参考资料:
https://openai.com/index/introducing-gpt-5-3-codex/
https://openai.com/index/gpt-5-3-codex-system-card/
https://cdn.openai.com/pdf/23eca107-a9b1-4d2c-b156-7deb4fbc697c/GPT-5-3-Codex-System-Card-02.pdf
https://www.anthropic.com/news/claude-opus-4-6
https://www-cdn.anthropic.com/0dd865075ad3132672ee0ab40b05a53f14cf5288.pdf
更多推荐


所有评论(0)