专业安装配置流程:1. 通过 aicodewith.com 获取API密钥 2. 配置Node.js开发环境 3. 执行:npm install -g @anthropic-ai/claude-code --registry=https://registry.npmmirror.com 4. 使用自动化脚本配置环境变量 5. 启动claude命令开始专业开发

Claude 4 发布

Claude 4 官方消息

https://www.anthropic.com/news/claude-4



Anthropic API

https://www.anthropic.com/news/agent-capabilities-api

今天,我们隆重推出下一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,它们为编码、高级推理和 AI 智能体树立了新标杆。

Claude Opus 4 是全球顶级的编码模型,在复杂、长周期任务和智能体工作流方面表现出持续的卓越性能。Claude Sonnet 4 是对 Claude Sonnet 3.7 的一次重大升级,提供了卓越的编码和推理能力,同时能更精确地响应您的指令。

除模型之外,我们还宣布以下内容:

扩展思考与工具应用 (beta)

:两款模型均可在扩展思考过程中应用工具(如

网络搜索

),使 Claude 能够在推理和工具应用之间交替进行,以优化响应质量。

全新模型能力

:两款模型均可并行应用工具,更精确地遵循指令,并且——当程序开发人员授予其访问本地文件的权限时——展现出显著增强的记忆能力,能够提取并保存关键事实,以保持连贯性并逐步积累隐性知识。

Claude Code AI编程助手 现已正式发布

:在研究预览期间获得广泛积极反馈后,我们正在扩展程序开发人员与 Claude 协作的方式。Claude Code AI编程助手 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 进行原生集成,可将编辑内容直接显示在您的文件中,实现无缝结对编程。

全新 API 核心功能

:我们在 Anthropic API 上发布了

四项新核心功能

,使程序开发人员能够构建更强大的 AI 智能体:代码执行工具、MCP 连接器、文件 API 以及长达一小时的提示词缓存能力。

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深度推理的扩展思考。Claude 的 Pro、Max、Team 和 Enterprise 计划均包含这两款模型及扩展思考核心功能,

Sonnet 4 同时向免费用户开放

。这两款模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 上应用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 token 15 美元(输入)/ 75 美元(输出),Sonnet 4 为每百万 token 3 美元(输入)/ 15 美元(输出)。

Claude 4

Claude Opus 4 是我们迄今为止最强大的模型,也是全球顶级的编码模型,在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 基准测试中均处于领先地位。它在需要集中精力、包含数千步骤的长周期任务上表现出持续的卓越性能,能够连续工作数小时——其表现远超所有 Sonnet 模型,并极大地扩展了 AI 智能体的能力边界。

Claude Opus 4 在编码和复杂问题解决方面表现卓越,为前沿的智能体产品提供动力。Cursor 称其为编码领域的顶尖水平,并在复杂代码库理解方面实现了飞跃。Replit 报告称,在跨多个文件的复杂变更方面,其精度得到提升,并取得了显著进展。Block 表示,在其代号为 “goose” 的智能体中,这是首个在编辑和调试过程中提升代码质量,同时保持完整性能和可靠性的模型。Rakuten 通过一项要求严苛的开源重构开发项目验证了其能力,该开发项目独立运行 7 小时并保持了持续性能。Cognition 指出,Opus 4 在解决其他模型无法应对的复杂挑战方面表现出色,成功处理了先前模型会遗漏的关键操作。

Claude Sonnet 4 在 Sonnet 3.7 业界领先能力的基础上实现了显著提升,在编码方面表现卓越,于 SWE-bench 测试中取得了 72.7% 的顶尖成绩。该模型在内部和外部用例中实现了性能与效率的平衡,并增强了可控性,以便更好地控制实现方式。尽管在多数领域不及 Opus 4,但它提供了能力与实用性的最佳组合。

GitHub 表示,Claude Sonnet 4 在智能体场景中表现出色,并将引入其作为 GitHub Copilot 中全新编码智能体的驱动模型。Manus 强调了其在遵循复杂指令、清晰推理和美学输出方面的改进。iGent 报告称,Sonnet 4 在自主多核心功能应用开发方面表现优异,并在问题解决和代码库导航方面有显著提升——将导航错误从 20% 降至近乎为零。Sourcegraph 表示,该模型展现出在软件开发领域实现重大飞跃的潜力——能够更长时间地保持任务焦点,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告了更高的成功率、更精准的代码编辑以及在处理复杂任务时更细致的工作表现,使其成为其主要模型的首选。

这些模型全面推进了我们客户的AI智能技术战略:Opus 4 在编码、研究、写作和科学发现领域突破了界限,而 Sonnet 4 作为 Sonnet 3.7 的即时升级版,为日常用例带来了前沿性能。

Claude 4 模型在 SWE-bench Verified 上表现领先。更多方法论详情,请参阅附录。

Claude 4 模型在编码、推理、多模态能力以及智能体任务方面均展现出强劲性能。更多方法论详情,请参阅附录。

模型改进

除了扩展思考与工具应用、并行工具执行和记忆能力改进外,我们还显著减少了模型应用捷径或“钻空子”来完成任务的行为。在特别容易出现捷径和“钻空子”行为的智能体任务上,这两款模型发生此类行为的概率比 Sonnet 3.7 低 65%。

Claude Opus 4 在记忆能力方面也远超所有先前模型。当程序开发人员构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“记忆文件”以存储关键信息。这使得智能体在执行任务时具备更佳的长期任务感知、连贯性和性能——例如 Opus 4 在玩《精灵宝可梦》(Pokémon) 游戏时创建了一个‘导航指南’。

记忆能力:当被授予访问本地文件的权限时,Claude Opus 4 会记录关键信息,以帮助提升其游戏表现。上图所示的笔记是 Opus 4 在玩《精灵宝可梦》(Pokémon) 游戏时真实记录的笔记。

最后,我们为 Claude 4 模型引入了思考摘要核心功能,该核心功能会应用一个较小的模型来精简冗长的思考过程。这种摘要核心功能仅在大约 5% 的情况下需要应用——因为大多数思考过程本身足够简短,可以直接完整显示。

Claude Code AI编程助手

Claude Code AI编程助手 现已正式发布,将 Claude 的强大能力融入您开发工作流的更多环节——无论是在命令行界面、您偏爱的集成开发环境 (IDE) 中,还是通过 Claude Code AI编程助手 SDK 在后台运行。

针对 VS Code 和 JetBrains 的全新测试版扩展程序将 Claude Code AI编程助手 直接集成到您的 IDE 中。Claude 提出的编辑建议会内嵌显示在您的文件中,在熟悉的编辑器界面内简化了审查和跟踪流程。只需在您的 IDE 命令行界面中运行 Claude Code AI编程助手 即可部署配置。

除了 IDE 之外,我们还发布了一个可扩展的 Claude Code AI编程助手 SDK,以便您可以应用与 Claude Code AI编程助手 相同的核心智能体来构建自己的智能体和应用程序。我们还发布了一个展示该 SDK 潜能的示例:Claude Code AI编程助手 on GitHub,现已进入测试阶段。在拉取请求 (PR) 中标记 Claude Code AI编程助手,即可让其响应审查者反馈、修复持续集成 (CI) 错误或修改代码。如需部署配置,请在 Claude Code AI编程助手 内运行 /install-github-app。

Anthropic API

今天,我们荣幸地宣布 Anthropic API 新增四项核心功能,旨在助力程序开发人员构建更为强大的 AI 智能体。

这四项新核心功能包括:代码执行工具、MCP 连接器、文件 API 以及扩展的提示词缓存:

代码执行工具

:它将 Claude 从一个程序代码开发助手转变为一位数据分析师。Claude 可以在 API 调用中直接运行 Python 代码、创建可视化图表并分析数据。

MCP 连接器

:借助此连接器,程序开发人员无需编写客户端代码,即可将 Claude 连接到任何远程 MCP 服务器。只需在您的 API 请求中添加服务器 URL,Claude 便会自动处理工具发现、执行和错误管理。

文件 API

:该 API 允许您一次性上传文档,并在多个对话中重复引用。这简化了处理知识库、技术文档或数据集的应用程序的工作流程。

扩展的提示词缓存

:除了标准的 5 分钟提示词缓存 TTL(生存时间)外,我们现在还提供长达 1 小时的扩展 TTL。对于长提示词,这可将成本降低高达 90%,延迟降低高达 85%,从而使扩展的智能体工作流更加实用且经济高效。

所有四项新核心功能即日起在 Anthropic API 上以公开测试版的形式提供。

阅读更多详情并查阅我们的技术文档:

https://www.anthropic.com/news/agent-capabilities-api

开始应用

这些模型是向虚拟协作者迈出的一大步——能够保持完整的上下文信息,在较长开发项目中持续专注,并驱动变革性的影响。它们经过了广泛的测试和评估,以最大限度地降低风险并提升安全性,包括实施针对更高AI智能技术安全级别(如 ASL-3)的措施。

我们期待看到您将创造出怎样的精彩。即刻在

Claude

Claude Code AI编程助手

或您选择的平台上开始应用吧。

附录

性能基准数据来源

OpenAI

o3 发布博文

o3 系统卡片

GPT-4.1 发布博文

GPT-4.1 托管评估




Gemini

Gemini 2.5 Pro 预览版模型卡片




Claude

Claude 3.7 Sonnet 发布博文

性能基准报告

Claude Opus 4 和 Sonnet 4 是混合推理模型。本博文中报告的基准测试分数显示了在有或没有扩展思考的情况下所达成的最高分数。我们在下文为每个结果注明了是否应用了扩展思考:

未应用扩展思考

:SWE-bench Verified、Terminal-bench

应用扩展思考 (最高 64K token)

 TAU-bench (未报告未应用扩展思考的结果)


 GPQA Diamond (未应用扩展思考时:Opus 4 得分 74.9%,Sonnet 4 得分 70.0%)


 MMMLU (未应用扩展思考时:Opus 4 得分 87.4%,Sonnet 4 得分 85.4%)


 MMMU (未应用扩展思考时:Opus 4 得分 73.7%,Sonnet 4 得分 72.6%)


 AIME (未应用扩展思考时:Opus 4 得分 33.9%,Sonnet 4 得分 33.1%)

TAU-bench 方法论

分数是通过在 Airline 和 Retail Agent Policy 的提示词中添加附加说明获得的,指示 Claude 在应用扩展思考和工具时更好地利用其推理能力。我们鼓励模型在解决问题的多轮交互轨迹中,以不同于我们常规思考模式的方式写下其思考过程,从而最好地利用其推理能力。为了适应 Claude 因更多思考而产生的额外步骤,最大步骤数(按模型完成次数计算)从 30 增加到 100(大多数轨迹在 30 步内完成,只有一个轨迹超过 50 步)。

SWE-bench 方法论

对于 Claude 4 系列模型,我们继续应用与先前版本中描述的相同的简单脚手架,仅为模型配备两种工具 —— 一个 Bash 工具和一个通过字符串替换进行操作的文件编辑工具。我们不再包含 Claude 3.7 Sonnet 应用的第三种“规划工具”。对于所有 Claude 4 模型,我们报告的是基于全部 500 个问题的得分。OpenAI 模型的得分是基于

477 个问题的子集报告

对于我们的“高计算量”数据,我们采用了额外的复杂性和并行测试时计算,如下所示:

我们对多次并行尝试进行采样。

我们丢弃那些破坏仓库中可见回归测试的补丁,类似于

Agentless (Xia et al. 2024)

采用的拒绝采样方法;请注意,未应用任何隐藏测试信息。

然后,我们应用内部评分模型从剩余尝试中选择最佳候选方案。

这使得 Opus 4 和 Sonnet 4 的得分分别达到 79.4% 和 80.2%。


开启您的Claude Code专业之旅:访问aicodewith.com平台 获取API密钥:https://aicodewith.com/dashboard/api-keys 建议使用 /model sonnet 模型获得最佳性价比

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐