2026 AI 变局：Claude Opus 4.6、GPT-5.3-Codex 相继发布，国产 AI 还有机会吗？

Claude Opus 4.6、GPT-5.3-Codex 相继发布.

感谢地心引力

559人浏览 · 2026-02-06 15:25:00

感谢地心引力 · 2026-02-06 15:25:00 发布

2026年2月6日凌晨1:45，Anthropic发布最新的Claude Opus 4.6模型；

27分钟后，OpenAI也发布了最新的GPT-5.3-Codex。

🔗官方链接：

x：
- Claude Opus 4.6：https://x.com/claudeai/status/2019467372609040752
- GPT-5.3-Codex：https://x.com/OpenAI/status/2019474152743223477
官网：
- Claude Opus 4.6：https://www.anthropic.com/news/claude-opus-4-6
- GPT-5.3-Codex：https://openai.com/index/introducing-gpt-5-3-codex/

有趣的是，前不久，OpenAI发文称将在聊天中引入广告功能：https://mp.weixin.qq.com/s/xYYdkB_kNx0emkLuS_qt8w，而Anthrop随后也在2月4号发表声明称将永久保持无广告对话环境：https://mp.weixin.qq.com/s/5SsfLb_rUjLUGQTP-CInNQ

哎，我就是喜欢观摩强者之间的战斗👍

请添加图片描述

Claude Opus 4.6

Claude Opus 4.6 主要针对编程、长上下文处理和复杂任务的执行能力进行了重大升级。

🟢 （1）核心能力提升

编程与代理（Agentic）能力： Opus 4.6 在编程任务上有了显著提升。它能更细致地制定计划，长时间维持代理任务的执行，并在大型代码库中更可靠地运行。其代码审查和调试能力也得到了增强。在 Terminal-Bench 2.0（代理编程评估）中取得了最高分。
推理与规划： 模型现在拥有“自适应思考”（Adaptive Thinking）能力，能根据任务难度自动判断是否需要进行深度推理。
基准测试表现： 在 GDPval-AA（衡量金融、法律等高价值工作任务的基准）上，Opus 4.6 领先于行业内的其他模型（如 GPT-5.2）及其前代 Opus 4.5。在 Humanity's Last Exam（复杂多学科推理测试）中也处于领先地位。

🟢 （2）上下文与输出增强

1M Token 上下文窗口（Beta）： 这是 Opus 系列模型首次支持 100万 token 的上下文窗口，使其能处理海量信息（如大型文档库或代码库）。
128k 输出 Token： 支持长达 12.8万 token 的输出，允许模型一次性生成更长的代码或文档，无需拆分请求。
上下文压缩（Context Compaction）： 引入了自动压缩旧上下文的功能，使模型能在长对话或长期任务中保持高效，避免触及上下文限制。

🟢 （3）新功能与开发者工具

思考力度控制（Effort Controls）： 开发者现在可以手动调整模型的“思考力度”，提供四个等级：低、中、高（默认）、最大（Max）。这允许在速度、成本和智能程度之间做权衡。
Claude Code 中的 Agent Teams： 允许用户组建智能体团队（Agent Teams），让多个子智能体并行协作处理任务。

🟢 （4）办公软件集成

Claude in Excel： 进行了重大升级，能处理更复杂的长流程任务。
Claude in PowerPoint (预览版)： 推出了 PowerPoint 集成的研究预览版，支持从 Excel 数据生成演示文稿，并能识别用户的品牌设计风格。

🟢 (5) 安全性

尽管能力提升，Opus 4.6 保持了极高的安全性，在自动行为审计中的“错位行为”（如欺骗、过度拒绝等）率很低。针对其强大的网络安全能力，Anthropic 也部署了新的监控和防御措施。

🧩与其它顶级模型的对比:
图示:
在这里插入图片描述

具体表格:
在这里插入图片描述

GPT-5.3-Codex

GPT-5.3-Codex 是目前最强大的代理编程模型（Agentic Coding Model）。它结合了 GPT-5.2-Codex 的顶尖编程能力和 GPT-5.2 的推理及专业知识，同时推理速度提升了 25%。

该模型是与 NVIDIA 合作设计，并在 NVIDIA GB200 NVL72 系统上训练和运行的。

目前已向 ChatGPT 付费用户开放（包括 App、CLI、IDE 扩展和 Web 端），API 访问即将推出。

注意:codex于2月2日发布,mac只支持 Apple Silicon 芯片.

主要更新和变化：

🟢 (1)核心能力提升

全能计算机操作：模型不再局限于写代码，而是演变为一个可以在计算机上完成各类专业工作的通用代理（Agent）。它在 OSWorld-Verified（计算机操作基准测试）上的得分从前代的 38.2% 飙升至 64.7%，接近人类水平（~72%）。
自我进化：这是 OpenAI 第一个在自身开发过程中发挥关键作用的模型，被用于调试训练过程、管理部署以及分析测试结果。
长程任务执行：能够处理涉及研究、工具使用和复杂执行的长耗时任务，例如从零开始在几天内构建复杂的游戏或应用。

🟢 (2)性能基准测试

GPT-5.3-Codex 在多个关键基准测试中刷新了行业纪录：

基准测试 (Benchmark)	GPT-5.3-Codex	GPT-5.2-Codex	GPT-5.2
SWE-Bench Pro (软件工程)	56.8%	56.4%	55.6%
Terminal-Bench 2.0 (终端操作)	77.3%	64.0%	62.2%
OSWorld-Verified (计算机操作)	64.7%	38.2%	37.9%
Cybersecurity CTF (网络安全)	77.6%	67.4%	67.7%

🟢 (3)主要功能更新

交互式协作：你可以在模型工作时实时进行“指挥”（Steer），与它讨论方法或纠正方向，而不会丢失上下文。模型会像同事一样汇报进度。
Web 开发增强：在构建网站时能更好地理解用户意图。例如，对于模糊的提示词（如“做一个着陆页”），它能自动生成更具生产级水准的布局（如自动将年付价格折算为月付显示、生成多用户的轮播评价等）。
网络安全 (Cybersecurity)：它是第一个被 OpenAI 评级为网络安全任务“高能力（High capability）”的模型，专门经过训练以识别软件漏洞，并配备了新的安全保障措施（如 Trusted Access for Cyber）。

模型对比

由于这两款模型发布时间极短（相隔不到半小时），且各自官方报告选用的基准测试策略不同（OpenAI 侧重 “Pro” 和内部新指标，Anthropic 侧重 “Verified” 和通用指标），导致完全相同且直接可比的测试项非常少。

本文前面都列出来了.

唯一完全相同的硬核跑分：Terminal-Bench 2.0

测试项	GPT-5.3-Codex	Opus 4.6	胜出者
Terminal-Bench 2.0 (终端命令行编码能力)	77.3%	65.4%	GPT-5.3-Codex (领先约 12%)

社区评价：这表明 GPT-5.3-Codex 在纯粹的、需要与命令行交互的编程任务上具有显著优势，符合其 “Coding Agent” 的定位。

高度相关但略有差异的对比：OSWorld

虽然标签略有不同，但技术社区（如 Reddit 和 paddo.dev）倾向于将这两者进行直接对比，视为 “Agentic Computer Use”（智能体操作电脑）能力的体现。

测试项	GPT-5.3-Codex	Opus 4.6	备注
OSWorld	64.7% (标注为 Verified)	72.7% (标注为 Agentic computer use)	Opus 4.6 胜出 Anthropic 在通用的屏幕操作/GUI交互上似乎更强。

不可直接对比的项目:

SWE-Bench (软件工程能力):
- GPT-5.3-Codex 跑的是 SWE-Bench Pro (Public) (56.8%)。
- Opus 4.6 跑的是 SWE-Bench Verified (80.8%)。
- 数据集完全不同，不能直接比数字。 Verified 是经过人工筛选的子集，通常分数会偏高；Pro 是更难或未经筛选的集合。
GDPval (办公能力):
- GPT-5.3-Codex 使用的是 Win Rate (胜率/平局率) (70.9%)。
- Opus 4.6 使用的是 Elo Score (积分) (1606分)。

舆论评价:

目前的初步评测结论是：

GPT-5.3-Codex 更像是一个专用的交互式编程搭档，在写代码、改Bug、跑终端命令上速度更快（号称快25%）且精度更高。
Opus 4.6 则被视为一个更通用的长思考模型（1M 上下文），在跨学科推理、科研检索（Research）、金融分析以及操作图形界面（GUI）上表现更好。

Anthropic 和 OpenAI 的对抗

Anthropic 的创始人是 Dario Amodei 和 Daniela Amodei 兄妹。在自立门户之前，他们是 OpenAI 的核心高管。

2021 年，他们带领另外 10 多名 OpenAI 的核心员工集体离职，创办了 Anthropic。

🧩OpenAI和Anthropic的核心分歧:

OpenAI 的路径： 2019 年接受微软 10 亿美元投资后，OpenAI 从纯非营利组织转向“上限利润”模式，开始大规模商业化（推出 ChatGPT 等）。Amodei 团队担心 OpenAI 过于追求商业速度而忽视了 AI 的安全性。
Anthropic 的理念：他们定位自己为“公益公司”（Public Benefit Corporation），核心口号是 AI Safety（AI 安全）。他们研发了著名的 Constitutional AI（宪法 AI）技术，旨在给 AI 植入一套“价值观”，让它在回答问题时能自发地遵守道德准则。

🧩竞争现状:

产品对标： OpenAI 的 GPT-4/GPT-5 与 Anthropic 的 Claude 3/4 系列是目前市面上最强的两个 LLM 梯队。
商战升级：
- 广告大战： 2026 年初，Anthropic 甚至在超级碗上投放广告，嘲讽 OpenAI 开始在 ChatGPT 中加入广告的行为，强调 Claude 永远不会为了广告出卖用户。
- 大佬互呛： OpenAI CEO Sam Altman 曾在社交媒体上公开反击，称 Anthropic 的产品是“专为富人设计的昂贵玩具”，且指责其在广告宣传上“虚伪”。
市场割据：
- OpenAI 在大众消费市场和多模态（视频、语音）领域占据绝对统治地位。
- Anthropic 在企业级市场（尤其是代码开发、深度文本分析）中口碑极佳，其 Claude Code 工具在 2025 年后表现强劲。

背后的巨头博弈:

两家公司不仅是技术竞争，也是背后科技巨头的代理人战争：

OpenAI 阵营：深度绑定微软（Microsoft）。
Anthropic 阵营：获得了亚马逊（Amazon）和谷歌（Google）的巨额投资（超过 100 亿美元）。

国产AI

发红包和送奶茶的这两位就不谈了，不过它们和自家的软件生态绑定起来（不过要考虑隐私和数据安全性），在商业上还是很强的，未来可能也会给我们带来一些便利。

硬实力上，还得是Deepseek，下一个版本DeepSeek V4预计将在春节附近发布，据说会支持更长的上下文窗口，拥有更强的代码与逻辑能力，有传言称其可能引入新的内存优化技术（如“Engram”系统），以进一步降低推理成本并提高效率。

不得不承认，国外的 Gemini、GPT 和 Claude 依然占据着 T0 的生态位，但在算力和资源不对等的情况下，国产 DeepSeek 依然能在核心指标上与之分庭抗礼，这种极致的工程化能力和模型效率，真是令人叹为观止。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

函数调用：AI原生应用领域的核心驱动力

2023年，OpenAI推出Function Call（函数调用）能力，彻底改变了这一局面。AI原生应用（AI-Native App）的本质，就是以大模型为大脑，通过函数调用连接现实世界的工具/数据，实现“意图理解→任务执行→结果反馈”的完整闭环。用户需求：“我明天要去北京出差，帮我查天气+订酒店”；AI的行动：理解意图：需要调用“天气查询”和“酒店预订”两个工具；函数调用：先调用get_weat