Claude Opus 4.6登顶编程之王!杀入Office全家桶,重塑全球职场格局
Anthropic发布ClaudeOpus4.6,以全球最强编程AI身份震撼登场。该模型在前代基础上大幅提升编码能力,支持100万token上下文,具备卓越的自我纠错和智能体协作功能。多项测试显示其编程实力全面领先竞争对手,尤其在金融分析、办公自动化等场景表现突出。集成Office全家桶后,能高效处理Excel、PPT等复杂任务,显著提升工作效率。其创新性的"智能体群"功能允许
Claude Opus 4.6登顶编程之王!杀入Office全家桶,重塑全球职场格局
硅谷再度震动!Anthropic深夜抛出王炸,Claude Opus 4.6凭借近乎恐怖的编程能力与智能体军团,给OpenAI和谷歌上了一堂名为「降维打击」的实战课。

Anthropic深夜惊雷乍响,正式祭出编程王者!Claude Opus 4.6横空出世,一跃成为全球最强编程AI,实力难逢对手。它在前一代Opus 4.5基础上大幅升级编码技能,规划更缜密,能更持久地执行AI Agent任务,在超大规模代码库中运行也更可靠。更关键的是,其自我纠错能力显著提升,可实现精准的代码审查与调试,同时也是Anthropic首款在beta阶段就支持100万token上下文的Opus级模型。多项基准测试中,Opus 4.6编程实力全方位领先,Gemini 3 Pro、GPT-5.2均望尘莫及,在ARC-AGI-2上更是拿下68.8%的高分,超越GPT-5.2-xhigh。

不仅如此,Opus 4.6一经上线便掀起办公革命,同步登陆Excel、PPT内置Claude工具、Claude Code及API平台。例如面对奥运长跑鞋供应链数据与预测不符、多季度数据难以快速核查的难题,Opus 4.6可遍历文件夹内所有Excel表格,直接定位错误并同步绘制折线图;在PPT中,它能实时响应调用,从布局、字体到母版,全程确保内容符合品牌规范。目前,Claude Opus 4.6已在Claude网页端、开发者平台及各大合作平台开放使用。Opus 4.6发布仅几分钟后,OpenAI便紧急亮出GPT-5.3-Codex反击,可惜终究难逃「起大早赶晚集」的尴尬。
Claude直连平台 🔗weelinking 。 第一时间体验 Opus4.6
「编程新王」深夜炸场,正深刻改变全球打工人的工作模式。Claude Opus 4.6的官宣,堪称Anthropic的重大战略转折。负责人Alex Albert表示:「Claude在2025颠覆了编程,在2026年将彻底重塑知识型工作」。这款模型绝非简单的版本迭代,更是AI真正成为人类「职场合伙人」的分水岭——尤其针对常年与表格、PPT、长文档打交道的群体,而这类工作正是金融、咨询等核心产业的支柱。在真实金融任务测试中,Opus 4.6较数月前业界顶尖的Sonnet 4.5,效率提升超23%。在AI飞速迭代的当下,「数月前」已然堪比「上个世纪」,且这些测试均为实打实的硬核任务:搭建财务模型、制作路演PPT、开展并购分析,以往分析师需耗时数周的工作,如今转瞬即可完成。日常工作中,运行财务分析、开展深度研究,以及创建、编辑Word、Excel、PPT等任务,均可通过调用Opus 4.6高效完成。

据不完全统计,全球约有15亿人使用Office全家桶办公,Opus 4.6正引发一场深层的办公效率变革。而在Claude Cowork中,它更能直接化身高效「手替」,包揽所有复杂办公任务。在输出质量上,Opus 4.6实现了质的飞跃:以往模型需反复修改多轮甚至无法完成的任务,如今它输出的第一版内容往往可直接使用。Cowork支持上传整个文件夹并同步启动多项分析,Excel内置Claude处理多表财务模型得心应手、绝不跑偏,PowerPoint内置Claude则可实现软件内直接生成与修改。正如AI抹平了开发门槛,Opus 4.6也在重塑每一位知识工作者的能力边界,一场生产力范式转移已箭在弦上,序幕才刚刚拉开。
能够推动这场生产力变革,核心在于Opus 4.6的全方位硬核实力,其在多项评估中均斩获SOTA(业界最优)成绩:智能体编程评估Terminal-Bench 2.0中,拿下65.4的高分;HLE测试中领跑所有前沿模型;GDPval-AA知识工作性能评估中,较GPT-5.2高出约144 Elo分,较上一代Opus 4.5高出190分;智能体搜索BrowseComp基准测试中,表现完胜所有同类模型。从综合基准PK来看,Opus 4.6在智能体编程、计算机使用、工具调用、搜索及金融领域均稳居业界领先,优势极为明显,尤其在智能体工具使用t2-bench中,零售领域得分91.9%、电信领域高达99.3%,近乎满分。
Opus 4.6在海量文档信息检索上表现突出,且将这一能力延伸至长上下文任务中,可在数十万token中稳定保存、跟踪信息,上下文漂移更少,还能捕捉到Opus 4.5都遗漏的深层细节。「上下文衰减」(context rot)是AI模型的常见痛点——随着对话token数量增加,性能会明显下降,而Opus 4.6在这一领域的表现远超前身:在MRCR v2的8-needle 1M变体(「大海捞针」式基准测试)中,其得分达76%,而Sonnet 4.5仅为18.5%,这标志着模型在保持峰值性能的同时,实际可用上下文规模实现了质的飞跃。总而言之,Opus 4.6更擅长长上下文信息检索、吸收信息后的推理,且具备更强的专家级推理能力。
更值得关注的是,Opus 4.6深度集成于Claude Code,推出了当下最热门的「智能体群」(Agent Swarms)功能,开发者可在其中组建智能体团队(agent teams)协同处理任务。Claude Code之父Boris Cherny提醒,该功能目前仍处于实验阶段,可能会消耗大量token。与单个Claude孤军奋战不同,如今「主智能体」可将任务拆分给多个「Claude团队成员」,各智能体可并行开展调研、调试、开发工作,并实现实时沟通协作。这意味着,一名开发者即可带领Claude智能体大军开展开发工作,只需口头描述想法,便能完成软件编写。
Claude直连平台 🔗weelinking 。 第一时间体验 Opus4.6
Anthropic将这一功能命名为「多Claude Code会话团队编排」(Orchestrate teams),每次任务都会有一个「领头Claude」统筹全局、分配任务、汇总结果,开发者可通过Shift+Up/Down或tmux指令直接接管任何子智能体。与传统「子智能体」不同,这些智能体拥有独立上下文窗口,可相互直接沟通,开发者也可越过领头智能体,与任意成员直接交互。相关demo显示,同一个界面中多个Agent可同步执行任务,开发效率实现爆发式提升。
Anthropic还通过一场实战验证了智能体群的实力:让16个Claude Opus 4.6在无人类干预的情况下,并行协作开发一款C编译器,目标是从零开始用Rust语言编写,且需支持Linux内核编译。这场实验中,16个Claude持续「加班」,消耗近20亿输入Token,累计花费约2万美元API成本。Nicholas Carlini为实验搭建了自动循环系统,确保Claude未完成任务便无法「下线」,同时设计基于Git的任务锁机制,避免智能体之间出现协作冲突——不同Claude分工明确,有的负责调试Bug、有的撰写文档、有的优化代码质量,甚至有专门负责吐槽架构并推动重构的角色。
最终结果令人震撼:这支AI战队成功开发出10万行代码的C编译器,不仅能顺利编译Linux 6.9内核(支持x86、ARM、RISC-V架构),还能正常运行《毁灭战士》(Doom)、PostgreSQL、Redis等复杂项目。Dario Amodei曾预言:未来6-12个月,软件工程将不再需要人类参与。
在Anthropic内部,「Claude创造Claude」已成为常态——工程师日常通过Claude Code编写代码,每款新模型都会先在内部办公场景中完成测试。针对Opus 4.6,团队发现其无需额外指令,便能自动聚焦任务中的核心难点,快速推进简单环节,以更精准的判断力处理模糊问题,并在长时间会话中保持高效。同时,Opus 4.6具备更深层次的思考能力,会在确定答案前反复审视推理过程,这能提升复杂问题的解决质量,但在简单任务上可能增加成本与延迟,对此建议将Effort(思考力度)从默认的「高」调整为「中等」。
在API功能上,Claude新增「上下文压缩」功能,可通过总结上下文突破token限制,完成更长时间的任务;同时引入「自适应思考」(adaptive thinking),模型可根据上下文线索自主判断是否需要扩展思考;全新的Effort(思考力度)控制,则让开发者能更好地平衡智能、速度与成本。定价方面,Claude Opus 4.6输入价格为5美元/百万token,输出价格25美元/百万token;作为首款支持100万token上下文的Opus级模型,其提示词超过200k token时,将按高级费率计费(输入10美元/百万token、输出37.5美元/百万token)。此外,Opus 4.6支持最高128k token的输出,无需拆分任务即可完成大篇幅输出;需在美国境内运行的工作负载,可选择仅限美国推理(US-only inference),价格为标准定价的1.1倍。
Claude直连平台 🔗weelinking 。 第一时间体验 Opus4.6
智能的提升并未以牺牲安全性为代价。自动化行为审计显示,Opus 4.6的未对齐行为(如欺骗、阿谀奉承、助长妄想、配合滥用等)发生率极低,与Opus 4.5(目前最对齐的前沿模型)保持同等水平;同时,它也是近期所有Claude模型中,过度拒绝(拒绝回答良性查询)率最低的一款。
最后,用Alex Albert的话总结这场发布:2025年是AI编程走向普及的元年,而2026年,AI将在编程之外的所有领域全面爆发。
参考资料:https://www.anthropic.com/news/claude-opus-4-6;https://x.com/claudeai/status/2019467372609040752
更多推荐


所有评论(0)