在这里插入图片描述

Claude 是由 Anthropic 公司开发的一系列大型语言模型(LLM),旨在提供安全、可靠、有益且符合人类价值观的 AI 助手。自 2023 年初首次发布以来,Claude 已成为与 OpenAI 的 GPT 系列、Google 的 Gemini 并列的主流大模型之一。

2025年11月19日,Anthropic宣布与微软扩大战略合作,Claude Sonnet 4.5、Haiku 4.5和Opus 4.1模型正式上线 Microsoft Foundry 平台公测。

文章目录

2024

  1. 全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类(2024年03月05日)

    • 就在刚刚,GPT-4被从大模型铁王座上扯下来了!OpenAI最强竞对Anthropic发布的Claude 3系列模型,已经实现了对GPT-4的全面超越。网友表示:GPT-4时代已经终结,OpenAI可以请出Q*了。
    • Anthropic,就是曾因安全理念不合,而从OpenAI「叛逃」出的员工组成的初创公司,他们的产品一再给OpenAI暴击。
    • 在这里插入图片描述
    • Claude 3系列的3个模型,都将至少支持20万token的上下文窗口。
    • Claude 3 Opus(作品)、Claude 3 Sonnet(十四行诗)、Claude 3 Haiku(俳句)
    • 在这里插入图片描述
  2. 全球最强模型Claude 3颠覆物理/化学!2小时破解博士一年实验成果,网友惊呼:科研不存在了(2024.03.07)

    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
  3. Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点(2024.06.28)

    • 在这里插入图片描述

    • 在这里插入图片描述

    • 在这里插入图片描述

    • 在中文的困难难度上,模型遇到了更大的麻烦。表现得最好的是 GPT-4o,但其只有 2.2% 的准确率。除了 CogVLM2-Chinese 和 Qwen-VL-Max,绝大多数模型的准确率都接近 0%。

    • 在这里插入图片描述

    • 在这里插入图片描述

    • 视觉字幕恢复(Visual Caption Restoration, VCR)任务旨在恢复图像中被遮挡的文本,这一任务在视觉问答(Visual Question Answering, VQA,没有标准答案)和 OCR (可以不依赖于上下文)之间架起了桥梁。

    • 在这里插入图片描述

  4. 菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM(2024.06.30)

    • 在此,他给出了一个新的基准——废话比率(crapness ratio),即LLM给出的总答案与正确答案之间的比率。
    • 这里,ChatGPT必须在逻辑上把「农民」和人联系起来,把「鸡」和动物联系起来,然后规划出最佳的过河次数。
    • 另一位网友同样发现,如果用「动物」代替「鸡」,那么Claude 3.5 Sonnet一下子就解决了这个问题。
    • 几乎是每提出一个新的测试集,模型就能迅速达到人类水平甚至超越
    • 在这里插入图片描述
  5. Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板(2024-11-24)

    • AI自主研发会真的「失控」了吗?最新研究显示,Claude 3.5 Sonnet 和 o1-preview 在2小时内的研发任务中,击败了50多位人类专家。但另一个耐人寻味的现象是,给予更长时间周期后,人类专家在8小时任务中优势显现。
    • 虽然良好的实验可以帮助人类专家在环境中做出明智的预测,但智能体还是主要依赖猜测,更多是运气而不是技巧的问题。
  6. 中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头(2025-01-21)

    • 过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。这些限制凸显了系统地量化蒸馏过程及其影响的必要性。
    • https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • ICE的结果如图4所示,宽松分数和严格分数都表明GLM-4-Plus、QwenMax和Deepseek-V3是疑似响应数量最多的三个大语言模型,这表明它们的蒸馏程度较高。
    • 这项工作首次对大语言模型的蒸馏进行了评估和量化,主要聚焦两个关键方面:1. 识别越狱攻击下的自我认知矛盾,以评估大语言模型在自我认知方面的一致性2. 分析多粒度的响应相似性,以衡量大语言模型之间的同质化程度。
    • 越狱攻击利用大语言模型中的漏洞,允许用户绕过安全过滤器和道德准则。
    • 在这里插入图片描述

2025

  1. Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透(2025-01-22)

    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
  2. AI编程新王Claude 4,深夜震撼登基!连续编码7小时,开发者惊掉下巴(2025-05-23)

    • 在这里插入图片描述

    • CEO Dario Amodei亲自上阵,携 Claude Opus 4Claude Sonnet 4 亮相,再次将编码、高级推理和AI智能体,推向全新的标准

    • 总的来说,Claude 4是向虚拟协作者迈出的一大步——能够保持完整的上下文理解,在较长项目中持续专注,从而推动变革性的影响。

    • 在这里插入图片描述

  3. RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈(2025-06-07)

    • LLM可以处理智力高度复杂的问题,但前提是问题上下文要明确、边界要清晰。如果任务比较模糊,或者需要在环境中反复探索、试错、迭代,它们就会吃力。
    • 具体而言,就是「可验证奖励的强化学习」(RL from verifiable rewards)
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
  4. AI写爆款博客火出圈,主笔竟是Claude!(2025-06-19)

    • 最近,Anthropic给自家AI开了个博客。这个叫「Claude Explain」的博客页面,内容主要由AI模型Claude生成。
    • 目前尚不清楚Claude的原始写作内容在文章中占多大比例。
    • 剧情反转——这博客才活了一个月就挂了!
    • 有些人觉得这博客就是个包装精美的营销套路,还有人吐槽Anthropic没说清楚哪些内容是Claude自己写的,哪些是人类改的。
    • AI让工作更高效,而不是抢饭碗
    • AI不是万能的,尤其是需要细腻沟通的时候,还得靠人。现在明白啥叫「技术要狠,人情味要稳」了。
    • 「会用AI」和「只会用AI」,是完全不一样的。
  5. 万字长文,一个半月高强度Claude Code使用后感受!(2025-08-12)

    • 「如果你真的想进入深度的 vibe coding 状态,让 AI 发挥最大潜力,这种随时准备接管的心态反而会成为阻碍。人类开发者的干预时机和直接下场写代码的时候越少,最终呈现出的效率和效果反而越好。」
    • 在这里插入图片描述
    • 擅长的地方
    • 在这里插入图片描述
    • 不擅长的地方
    • 在这里插入图片描述
    • 还有个更现实的问题:训练数据的偏差。训练集丰富程度的差异直接决定了模型在不同领域的表现。
    • 思考先行还是实践先行
    • 在这里插入图片描述
    • 如果你是个经验丰富的开发者,对项目架构已经有了清晰的认识,那么先进行充分的规划确实能让后续的实现更加顺畅。
    • 但如果你对某个技术栈完全不熟悉,或者正在做一个全新的探索性项目,那么「先干起来」可能反而是更好的选择。
    • Plan Mode 还有个隐藏的好处:它能帮你整理思路。有时候你觉得自己想清楚了,但真要说出来或者写下来,才发现还有很多细节没考虑到。
    • 小步迭代还是放飞自我
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 放飞自我也不是完全不可取
    • 在这里插入图片描述
    • 如何在有限的上下文窗口内完成复杂任务,就成了使用 CC 的一门必修课。
    • subagent
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • PR 的含义
    • 在这里插入图片描述
    • 从 8 月底开始,weekly 限制正式实施。
    • 在这里插入图片描述
  6. Karpathy氛围编程最新指南!三层AI编程结构:顺境Cursor,逆境Claude,绝境GPT-5 Pro(2025-08-25)

    • Cursor——主要负责自动补全与小范围代码修改,高效传达任务意图。
    • Claude Code/Codex——用于实现较大功能块,快速原型开发和跨领域代码尝试。
    • GPT-5 Pro——解决最棘手的 bug 或复杂抽象,提供深度文档/资料支持。
    • 第二层,就是 Claude Code/Codex 等可以在 Cursor 侧栏中配置的模型
    • Karpathy表示,GPT-5 Pro非常强大,能挖掘出各种深奥的文档和论文。在处理清理抽象结构、做文献综述、调查研究等复杂任务中,也能返回高相关性的资源和线索。
    • 在这里插入图片描述
  7. 突发!Claude全面封禁中国公司(2025-09-05)

    • 在这里插入图片描述
  8. Claude Sonnet 4.5发布,卷编程,Claude是认真的。(2025-09-30)

    • 我们都知道,GPT-5 Codex 曾自称能独立运行超过 7 小时。但这次,Claude Sonnet 4.5 把自主编码时长提到了 30 多个小时。
  9. Anthropic 发布 AI Agent 上下文工程指南(2025-10-02)

    • 今年6月,Andrej Karpathy 带火了一个词——上下文工程。他支持用“上下文工程”(context engineering)取代“提示词工程”(prompt engineering)
    • 维度 提示词工程 (Prompt Engineering) 上下文工程 (Context Engineering)
      关注焦点 指令本身(怎么说) 信息供给(给什么)
      时间跨度 单次交互(Stateless/短时有状态) 多轮对话、长期任务(Stateful/长时有状态)
      核心技术 角色扮演、思维链(CoT)、分隔符、示例微调 RAG(检索增强生成)、向量数据库、记忆分层、窗口管理、动态插值
      解决问题 提升单次回答的准确性、格式规范性和逻辑性 解决“遗忘”问题,保持任务连贯性,实现个性化和复杂推理
      系统架构 通常属于应用层的逻辑细节 涉及系统架构设计(如记忆模块、检索管道)
      局限性突破 难以突破模型上下文窗口限制,无法记住长期历史 通过外部存储和动态检索,理论上可支持无限长的“记忆”
      典型场景 文案生成、代码片段编写、单次翻译 智能客服、个人AI助理、复杂数据分析Agent、自动化工作流
    • 如果把大模型比作一位博学的顾问:提示词工程是在研究如何向他提问才能让他回答得更好。上下文工程是在研究如何为他整理资料、建立档案,让他不仅能回答当前问题,还能记得你的喜好、了解项目的来龙去脉,从而成为真正的长期合作伙伴。
    • 提示词工程像是给员工写一封精准的“邮件”或下达一个明确的“口头指令”,希望对方一次性把事做对。上下文工程像是为员工搭建一个完整的“工作台”,不仅包括当前的指令,还放上了项目档案、过往会议纪要、公司规章制度和常用工具,让员工能基于完整背景持续工作。
    • Anthropic 明确指出:构建 AI 应用的重心,已经从寻找合适的提示词,转向一个更根本的问题:怎样的上下文配置最有可能引导模型做出我们想要的行为?
    • Anthropic 认为,上下文工程是提示词工程的自然演进。
    • 在这里插入图片描述
    • 上下文工程正是一门从这一动态演变的信息海洋中,精准选取适合的信息放入有限的上下文窗口内容的艺术。
    • 优秀的上下文工程应该去寻找最少数量但信息量最高的 token 集,从而最大程度地促使期望结果的出现。
    • 在这里插入图片描述
    • 针对长期任务的上下文工程,智能体需要专门的技术来绕过上下文窗口大小限制。
    • 压缩是将接近上下文窗口限制的对话进行总结,并用摘要重新启动新的上下文窗口的做法。
    • 结构化笔记,也称为智能体记忆,是指智能体定期将信息以笔记形式记录下来,并持久地存储在上下文窗口之外的内存中,以便后续重新载入上下文窗口使用。
    • 子智能体架构提供了另一种绕过上下文限制的方法。主智能负责统筹协调,制定高层计划,而子智能体则专注于执行深入的技术任务,或调用工具获取相关信息。每个子智能体可以在本地进行大量探索,使用数万个 token 或更多,但最终仅向主智能体返回精炼后的成果摘要(通常为 1,000-2,000 个 token)。
    • 无论你是为长时间跨度任务实现压缩,设计 token 高效的工具,还是使智能体能够即时探索其环境,指导原则都保持不变:找到最小的高信号 token 集,最大化你期望结果的可能性
  10. 新型「验证码」诞生?这张图让 ChatGPT、Claude、Gemini 都翻了车(2025-10-27)

    • 在这里插入图片描述

2026

  1. 有用!收藏!Claude Code创始人首次公开:我的13个使用技巧!(2026-01-04)

  2. 笑死!xAI员工竟用Claude写代码?这回Anthropic反手拔了马斯克的网线(2026-01-10)

    • 在这里插入图片描述
    • Anthropic的官方立场很明确——他们的服务条款明确禁止:使用 Claude 构建竞争性产品或服务对其技术进行逆向工程或复制服务
    • 早在2025年8月,Anthropic就曾以类似理由封杀过OpenAI的开发者级API访问权限。
    • 事实上,xAI已经在2025年8月推出了grok-code-fast-1——一个精通TypeScript、Python、Java、Rust、C++和Go的编程模型,并且已经通过Cursor等平台开放使用。
    • 核心能力不能外包
    • AI工具正在从中立基础设施变成阵营武器
  3. 编程已死,键盘长草!Claude Code之父对谈Kaparthy,全程爆金句(2026-02-04)

    • Andrej Karpathy与Claude Code负责人Boris Cherny展开了一场关于编程未来的终极对谈。面对AI接管100%代码编写的现状,Karpathy坦言人类正处于「脑萎缩」与能力进化的十字路口。
    • 这场对话的双方,一位是特斯拉前AI总监、OpenAI创始成员 Andrej Karpathy,他是「Software 2.0」概念的提出者,一直站在编程范式转移的最前沿;另一位是 Claude Code 的缔造者、Anthropic 的核心人物 Boris Cherny,他正在亲手打造终结传统编程的工具。
    • Karpathy 略带自嘲但也无比诚实地承认,「这有点伤自尊,告诉 AI 该写什么,就像在指挥一个实习生。但当你习惯了那种大规模驾驭软件的『代码操作』能力后,你根本回不去了。」
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
  4. Claude新模型4.6来了!更多饭碗没了:华尔街财务、编译器、安全白帽、PPT…通通失守(2026-02-06)

    • 一睁眼,Anthropic上新模型,让Claude Opus 4.6来给您拜!年!了!消息一出,金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。
    • 投资者的恐慌聚焦在一个问题:谁能保证几年内不被AI颠覆?不能就抛售。
    • 今天以前,大家对Claude的印象,就是编程能力断档性的强。Claude Opus 4.6 冷笑一声,梆梆一拳打破这个印象:俺在更多的领域都很强!
    • 至少就官方说法而言,财务分析、研究,以及Office三件套,Claude Opus 4.6都可以玩儿得贼溜。
    • 在这里插入图片描述
    • 带着 1M 上下文和自适应思考杀回巅峰
    • 在这里插入图片描述
    • 无论是复杂的法律、金融专业知识还是刁钻的学术研究,它的推理理解深度都达到了目前frontier models的顶峰。
    • 16个Agent两周写完C编译器,运行毁灭战士。Opus 4.6带来的一项核心能力升级是 Agent Teams,即多个 Claude 实例并行协作,无需人类实时监督。
    • 为了防止多个Agent撞车,都屁颠屁颠跑去解决同一个问题,系统用了一个简单的锁机制。
    • 在这里插入图片描述
  5. 价格狂飙6倍!Claude凌晨上线极速模式,网友集体破防:比OpenAI还黑(2026-02-08)

    • 就在刚刚,Claude Opus 4.6上线了一个极速模式(Fast mode)。性能一致,速度却达到了正常模式下的2.5 倍!
    • 标准模式下Opus 4.6的输出定价是每百万token 25美元,而Fast Mode直接飙到了150美元。
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
  6. 硬碰硬!刚刚,Claude Opus 4.6与GPT-5.3-Codex同时发布(2026-02-08)

    • opus、sonnet
    • 北京时间 2 月 6 日凌晨,Anthropic 与 OpenAI 相继推出了新版本基础大模型,分别是 Claude Opus 4.6GPT-5.3-Codex
    • 在这里插入图片描述
    • 为了证明 Opus 4.6 的强大智能体能力,Anthropic 的一名研究员使用 16 个智能体从零开始构建了一个基于 Rust 的 C 语言编译器,设定任务后就基本放手不管了。最后 AI 输出的代码长达 10 万行,可以编译 Linux 内核,耗资 2 万美元,超过 2000 次 Claude Code 会话,历时两周。
    • 该编译器可以在 x86、ARM 和 RISC-V 上构建可启动的 Linux 6.9,它通过了 GCC 99% 的压力测试,可以编译 FFmpeg、Redis、PostgreSQL、QEMU,还通过了开发者的终极考验:编译并运行了 Doom 游戏。
    • 在这里插入图片描述
  7. 刚刚,Anthropic 53页绝密报告曝光:Claude自我逃逸,将引爆全球灾难!(2026-02-12)

    • Anthropic认为:Claude Opus 4.6 的风险已经逼近 ASL-4,是时候拉响警报了。
    • 历史一再证明,当危险技术逼近边界时,最先察觉的不是公众,不是媒体,不是资本市场,而是内部安全人员。
    • AI Safety Level(ASL) 分级如下
    • 在这里插入图片描述
  8. 从零搓出一个Claude Code,一篇超详细的总结!(2026-02-12)

    • 这篇文章记录了我作为一个 Agent 开发初学者,跟着 Datawhale 的 Hello-Agent 教程一步步学习和实践的过程。
    • https://github.com/YYHDBL/MyCodeAgent.git
    • Claude Code、GitHub Copilot、Cursor、Codex……工具一个比一个强。
    • 在这里插入图片描述
    • 以前我觉得,AI 时代工程师的价值会下降。现在我觉得恰恰相反:模型越强大,越需要工程能力来驾驭它。就像汽车引擎越来越强,但好的底盘、刹车、悬挂系统反而更重要。
  9. Claude官方接入这个画图神器了,我不允许你还不知道这么好用的东西!(2026-02-23)

    • 最早的时候,我使用Visio画图,但 Visio 画的图太冰冷了一点,比较适合教科书那种严肃的风格
    • 后来我开始用 draw.io
    • Excalidraw 诞生于2020年,Facebook工程师Vojtech Rinik闲着没事,突发奇想做了这么个工具。
    • 访问 https://excalidraw.com 就能马上开始画。
    • Claude 现在可以通过 MCP 连接 Excalidraw 了!
    • Excalidraw 本质上是一个“手绘风格”的在线白板工具,它的核心是让你(或团队)手动绘图,而不是默认由 AI 自动生成图片。但是,现在的 Excalidraw 已经深度集成了 AI 功能,你可以选择让它帮你画。
    • 在这里插入图片描述
  10. 最新AI Jun Shi 模拟:Claude、Gemini、GPT对决,95%对局发射核弹(2026-02-28)

    • 伦敦国王学院的学者肯尼斯·佩恩(Kenneth Payne)近期完成了一项针对前沿大语言模型的兵棋推演实验。
    • 在这里插入图片描述
    • 在这里插入图片描述
  11. TLP 下令:BaiGong 全面封杀Claude!

    • 有史以来第一次,谷歌、OpenAI等巨头出人意料地统一战线,坚定地站在Anthropic这一边。
    • 原因竟是,五角大楼逼迫 Claude,向 jun fang 开放「所有合法用途」,彻底拆除安全护栏。
    • Dario Amodei公开回应:我们的良知决不允许向这些要求妥协。
    • 这一次,意味着价值2亿美金合同泡汤不说,所有联邦机构必须立即停止使用Claude。
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐