Claude 3.7发布:强大能力背后的焦虑思考
Claude 3.7昨天正式发布了。整体而言,社区对这个新版本的评价非常高,尤其是在代码功能方面表现出色。然而,在体验完Claude 3.7并了解其特性后,我却陷入了一种深深的焦虑。今天,我想与大家分享Claude 3.7带来的变化,以及这种焦虑的来源。
Claude 3.7发布:强大能力背后的焦虑思考
引言
Claude 3.7昨天正式发布了。整体而言,社区对这个新版本的评价非常高,尤其是在代码功能方面表现出色。然而,在体验完Claude 3.7并了解其特性后,我却陷入了一种深深的焦虑。今天,我想与大家分享Claude 3.7带来的变化,以及这种焦虑的来源。
Claude 3.7的主要特性
1. 代码能力的显著提升
从社区反馈来看,大多数用户对Claude 3.7的第一印象是它在解决代码问题方面表现卓越。可以说,它是目前市面上解决代码问题最强的模型,没有之一。
Reddit社区中,许多用户表示,Claude 3.7能够解决之前其他AI模型无法解决的复杂问题。因此,像Cursor、Warp等代码开发工具都第一时间接入了Claude 3.7。如果你之前使用的是Claude 3.5,现在可以直接切换到3.7,体验它是否能提升你的编程效率。
我自己的测试结果显示,Claude 3.7在前端开发(网页编写)方面变得非常强大。这主要是因为Anthropic优化了训练方法,减少了竞赛题目的训练比重,转而使用更多现实生活中的代码问题来训练模型。这使得用户在实际使用过程中能获得更好的体验。
虽然官方评估仍基于标准benchmark,但在实际使用体验上,3.7确实比其他模型表现更出色。
2. Reasoning功能的引入
Claude 3.7引入了reasoning功能,虽然这并非全新概念(O1和DeepSeek的R1等模型已经讨论过多次),但Claude也加入了chain of thought(思维链)的显示功能。
引入思维链的核心优势在于扩展了输出窗口。相比之前可能只有4096个token的输出限制,现在可以输出更长的内容。这不仅增强了reasoning能力,对长文本输出也有很好的支持。
3. Claude Code工具的推出
第三个更新特色是Claude Code,这是一个更偏向产品的工具。它能与GitHub联动,允许用户在控制台中对代码进行调整和AI操作。
如果你熟悉Cursor或Warp等软件,这样的功能对你来说应该不陌生。这表明Anthropic也开始进入这个赛道,提供官方工具来增强代码开发体验。
AI在编程领域的落地与影响
基于以上三点,Claude 3.7最大的更新集中在代码能力上。我们之前常讨论AI会在哪些领域落地,现在答案已经很明确:AI已经落地,而且最大的生产力提升出现在程序开发领域。
标志性事件是像Cursor这样的工具成为最快达到年收入一亿的公司,充分展示了AI在程序开发市场的巨大助力。
在前几期关于DeepSeek的视频中,我们提到最近大语言模型提升的方向确实是向更智能、更重视推理和代码能力发展。原因在于强化学习(reinforced learning)提供了一条确定的路径,沿着这个方向可以让大模型回答更有逻辑的问题。
在这个方向上,不需要那么多数据,只需要有正确的结果和题目就能进行训练。因此,像代码这种比较确定性、比较抽象的训练集,确实能切实提升大模型的能力,更好地帮助大语言模型在开发领域落地。
我的焦虑
工作被取代的担忧
如果两年前有人问我AI会取代程序员吗,我可能会认为不会。但如果现在问我,我可能会打一个问号。因为我现在切实地用AI提升了我写代码的效率。
随着AI继续发展,会不会出现生产力过剩的状况?会不会有一些技术工种被取代?原来需要10个人完成的工作,现在只需要2个人?我认为这种情况可能会出现。
我在朋友圈看到一位一线大语言模型工程师的感慨:“我现在做的东西好像在取代我自己,但如果我不做这些东西,我好像更快也会被取代。”
对AI安全的担忧
除了工作上的焦虑,阅读Claude 3.7的System Card时,我产生了另一种担忧。因为这个System Card约90%的篇幅都在讨论AI安全问题。
Anthropic公司很有意思,它每次的模型卡都写得特别"悲观",给人的感觉是:“我们一定要注意AI安全,如果不注意,人类可能会毁在我们手里。”
Claude 3.7的System Card分析
在System Card中,有两点我认为特别值得一提:
1. Release Decision Process(发布决策过程)
这一章节解释了为什么他们要将思维链的每一步思考过程展示给用户。这件事对用户来说可能有点不可思议,因为无论是DeepSeek还是OpenAI的O1,这些中间步骤似乎都能看到,为什么Claude 3.7会犹豫是否要这样做?
Anthropic花了很长篇幅解释:首先,如果让用户看到思考过程,可能无法保证过程中是否有有害内容。因为中间的一些转换或思考过程,可能不是人能够理解的语义,当这些语义转换成文字时,可能会出现偏差或产生有害信息。
第二点是,当把中间思考信息给到用户时,用户可能更容易针对AI进行"越狱"。本来AI不会产生有害内容,但了解了思考过程后,用户可能会找到绕过限制的方法,让AI更容易生成有害内容。
Anthropic详细记录了他们如何做决定以及如何评估潜在危害。对大多数用户来说,了解这个决策过程似乎没什么用,但它体现了Anthropic对安全的重视——即使其他公司已经这样做了,他们仍然要解释为什么这样做以及可能的风险。
2. RSP Evaluation(风险评估)
我们常说AI安全,但很多人可能会想:“我天天用AI,也没觉得不安全,AI安全到底是为了什么?”
在这部分,Anthropic列出了一些实际场景,说明哪些情况确实会威胁人类安全,并给出了评估体系来判断当前模型是否会构成威胁。
例如,7.1部分讨论了如果一个有理科背景的人想利用大模型制作生化武器,他是否能通过AI实现这一目标。
7.2部分讨论了"自动演化"——如果给AI权限进行AI相关研究并让自己进化,它是否有能力自动创造出下一代更先进的AI。
可以看出,Anthropic设定了一些真实可能威胁人类安全的情况,并建立了标准和测量指标,对每个模型进行评估,以确定它未来是否可能威胁人类。
结论
Claude 3.7的System Card用了很长篇幅讨论安全问题,这表明Anthropic希望提醒大家重视AI安全。在追求更快、更高、更强的同时,我们也应该追求更安全。
当我们惊叹于Claude 3.7强大的代码能力时,也应该思考AI发展带来的潜在风险和社会影响。只有平衡发展与安全,才能让AI技术真正造福人类。
希望这篇博客对您有所启发。如果您有任何问题或想法,欢迎在评论区留言讨论。如果您觉得这篇文章有价值,也请点赞、收藏和分享。谢谢阅读!
更多推荐
所有评论(0)