模型

提供商

定位

优势

劣势

适用场景

Claude 4.6 Sonnet

Anthropic

中阶智能

定价与 Sonnet 4.5 相同;支持思考模式;默认 200k 上下文,Max Mode 可到 1M;推理能力强、成本低于 Opus

日常编码、强推理、注重性价比的团队

Claude 4.6 Opus

Anthropic

最强能力

多轮对话意图跟踪;先规划再行动;代码风格统一、惯用写法好;适合系统设计、复杂重构、代码审查

费用最高;长会话易过度展开;上下文有限时可能过于自信

系统设计、复杂重构、代码审查、关键改动

Gemini 3.1 Pro

Google

多模态

同时处理图像和代码;Max Mode 支持 1M tokens;约 $2/100万 输入 token

设计稿 UI/UX、前端、视觉化代码理解、大代码库分析

Gemini 3 Flash

Google

速度优先

响应快;约 $0.50/100万 输入 token;支持推理模式

简单编辑、快速任务、对速度敏感的子代理

GPT-5.4

OpenAI

功能最强

内部评测表现最佳;自信果断;擅长并行与长流程

单 token 成本高于 Codex 5.3;输出可能偏长

追求最高质量、复杂任务

GPT-5.3 Codex

OpenAI

旗舰代码模型

Terminal-Bench 领先;与 Opus 4.6 相当,价格约 1/3;速度快

架构设计上精细度略逊于 Opus

日常编码、长时间调试、注重成本的团队

Composer 1.5

Cursor

自研代理模型

响应快;个人订阅从 Auto 池计费,实际成本低;针对工具调用、编辑、终端优化

复杂配置、文档处理、从零构建不如顶尖模型;不适合超长周期任务

高频交互式编码、对速度要求高的子 Agent

简单总结

维度

推荐

性价比

GPT-5.3 Codex、Composer 1.5、Gemini 3 Flash

最高质量

GPT-5.4、Claude 4.6 Opus

设计稿 / 视觉

Gemini 3.1 Pro

成本敏感

Gemini 3 Flash、GPT-5.3 Codex

系统设计 / 架构

Claude 4.6 Opus

Claude 4.6 Sonnet

Sonnet 4.6 是 Anthropic 的中阶智能模型,定价与 Sonnet 4.5 相同,支持思考模式,默认上下文窗口为 200k,可在 Max Mode 中扩展到 1M。适合已在团队内统一使用 Claude、希望获得强推理能力但又不想承担 Opus 成本的团队。

优势

比 Opus 更实惠,同时保持强大的编码能力和思维支持,适合日常编码任务。

为需要更深入分析的任务提供强化推理能力。

同一提供商、同一风格,成本低于 Opus。

限制

对于大多数编码任务,Codex 和 Composer 在每单位成本上的能力更强(性价比更高)。

若追求最高质量,Opus 仍然是更好的选择。

Claude 4.6 Opus

Opus 4.6 是 Anthropic 能力最强的模型。它能够在多轮对话中持续跟踪意图,并在长时间会话中保持连贯的推理能力。它会先规划再行动,给出具体可行的修复方案,并能写出风格统一、符合惯用写法的高质量代码。

优势

事先规划,并能在多轮对话中连贯推理。适合系统设计、复杂重构和代码审查。

处理日志繁多、跨多个项目的排错场景,包括 CI、Docker 和监控。

编写符合惯用风格的代码,并做出稳健的架构决策。适合用于代码审查和生产环境中的关键改动。

在完整对话中持续跟踪你的意图。在依赖既有上下文时表现最佳。

生成跨多个组件的具体缺陷修复和功能实现。

限制

费用最高的模型。比其他模型更快消耗用量额度。

在长时间会话中可能过度展开或逐渐偏离上下文。

在上下文有限的情况下,有时会显得过于自信。

Gemini 3.1 Pro

Gemini 3.1 Pro 是 Google 最新的模型。它可以同时处理图像和代码,非常适合基于设计稿的 UI/UX 工作。在 Max 模式下,其上下文窗口可扩展至 100 万个 token,用于对整个代码库进行分析。

优势

可同时处理图像和代码。非常适合基于设计稿的 UI/UX 开发、前端开发,以及基于视觉的代码理解。

在 Max Mode 中最多支持 1M tokens,适用于整个代码库分析。

每 1M 输入 tokens 仅需 2 美元,即可获得强大能力。

Gemini 3 Flash

Gemini 3 Flash 是 Google 针对速度优化的模型。每百万个输入 token 仅需 0.50 美元,是当前最便宜的选项之一。适合用于简单编码任务、快速修改,以及执行由更强大模型生成的计划。

优势

属于最快的模型之一,针对低延迟响应进行了优化。适合简单编辑、快速任务,以及对速度要求高的子代理任务。

$0.50/100万输入 token,是最实惠的选项之一。适用于受成本限制的工作流程。

在需要时支持推理模式,同时保持较低成本。

GPT-5.4

GPT-5.4 是 OpenAI 迄今为止功能最强的模型。它在我们的内部基准测试中表现优于所有其他模型。对于对成本较为敏感且对模型极致智能要求不高的工作流,GPT-5.3 Codex 依然是价格更低且实力强劲的选项。

优势

GPT-5.4 在我们的内部评测中是表现最好的模型。

自信且果断。处理杂乱、模糊的问题时不会反复犹豫,并且始终主动规划下一步。

擅长并行处理任务,并在长流程工作流中保持持续推进。

限制

每个 token 的成本高于 Codex 5.3。如果你更看重单位工作量的成本而不是模型的峰值能力,那么 Codex 5.3 可能仍然更适合。

输出风格可能显得更铺陈,取决于个人偏好。它更注重全面性而非简洁。

新模型;仍处于收集早期反馈和偏好评估的阶段。

GPT-5.3 Codex

GPT-5.3 Codex 是 OpenAI 的旗舰级代码模型。它在 Terminal-Bench 基准上大幅领先,并且在我们的内部基准测试中表现与 Opus 4.6 相当,价格却仅约为其三分之一。相比之前几代 GPT,速度快得多,是大多数编码任务的理想默认选择。

优势

以明显优势领先 Terminal-Bench,在我们的内部基准测试中可与 Opus 4.6 一较高下。

价格约为 Opus 的三分之一,在大多数任务上质量相当。适合日常编码、长时间调试,以及注重成本的团队。

能硬啃复杂的多步骤问题和长时间的深度调试会话。

限制

在偏重架构设计的任务上,代码风格的精细程度不如 Opus。

Terminal-Bench 更偏向通用推理;在真实编码场景中的实际收益可能有所不同。

Composer 1.5

Composer 1.5 是 Cursor 自研的具备代理能力的模型。它专为高频交互式编码优化,在智能程度上介于 Sonnet 4.5 和 Opus 4.5 之间。在个人订阅中,Composer 从 Auto 用量池中计费,因此其实际每 token 成本低于标明的 API 价格。

优势

比 Opus 和其他思维模型更快。针对交互式 Agent 会话和日常编码进行了优化。

在个人套餐中从 Auto 用量池扣费,因此可获得更多使用次数。

支持用于复杂任务的推理 token,同时保持高速响应。

在 Cursor 内针对工具调用、文件编辑和终端操作进行行为调优。非常适合对速度要求高的子 Agent 任务。

限制

在复杂配置、文档处理和从零开始的构建方面不如顶尖模型。

不太适合需要运行数小时或数天的长周期任务。

参考网站cursorhttps://cursor.com/cn/docs/models/claude-4-6-sonnet


 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐