Dario Amodei 万字长文:我们已经没有时间可以浪费了,直面并克服强大AI带来的风险
Dario Amodei 认为最早2027年就会出现超越诺贝尔奖获得者的AI,人类可能正面临前所未有的安全威胁,我们需要直面问题。Dario Amodei 写了几万字的长文,他认为最早2027年就会出现超越诺贝尔奖获得者的AI,目前AI正处于一种飞速发展的反馈循环中,人类可能正面临前所未有的安全威胁,我们需要直面问题。
Dario Amodei 认为最早2027年就会出现超越诺贝尔奖获得者的AI,人类可能正面临前所未有的安全威胁,我们需要直面问题。
Dario Amodei 写了几万字的长文,他认为最早2027年就会出现超越诺贝尔奖获得者的AI,目前AI正处于一种飞速发展的反馈循环中,人类可能正面临前所未有的安全威胁,我们需要直面问题。
文章题目:《技术的青春期》( 直面并克服强大人工智能带来的风险)

以下是一些重点内容:
在卡尔·萨根的小说《接触》(Contact)改编的电影中,有这样一个场景:女主角天文学家探测到了来自外星文明的第一个无线电信号,一个国际小组正在面试她,考虑让她成为人类的代表去与外星人会面。小组问她:“如果你只能问(外星人)一个问题,你会问什么?”
她的回答是:“我会问他们,‘你们是如何做到的?你们是如何演化,如何安然度过技术的青春期而没有自我毁灭的?’”
每当我想起人类与AI如今的处境——我们正站在一个新时代的门槛上——我的脑海里总会浮现那个场景。因为这个问题与我们当下的状况是如此贴切,我多希望能有外星人的答案来指引我们。
我相信,我们正在进入一个必然而又动荡的成年礼,它将考验我们作为一个物种的本质。人类即将被赋予几乎无法想象的力量,而我们的社会、政治和技术体系是否拥有驾驭它的成熟度,却非常不确定。
在我之前的文章《慈悲的机器》(Machines of Loving Grace)中,我试图描绘一个已经安然成年的人类文明蓝图。在那里,风险已被解决,强大的AI被巧妙而富有同情心地用于提升每个人的生活质量。我认为,为人们提供一个鼓舞人心的奋斗目标至关重要。
但在这篇文章中,我想直面这个“成年礼”本身:绘制出我们即将面临的风险地图,并开始制定一份战胜它们的作战计划。
在讨论风险时,我认为必须遵循三个关键原则:
- 避免末日论: 我指的“末日论”不仅仅是相信末日不可避免,更是指以一种准宗教的方式思考AI风险。我们需要以现实、务实的方式讨论和应对风险:冷静、基于事实,并能经受住潮流变化的考验。
- 承认不确定性: AI的发展可能远没有我想象的那么快,或者我讨论的风险可能不会发生。没人能百分之百预测未来,但我们必须尽力规划。
- 尽可能采取精准干预: 应对AI风险需要公司自愿行动和政府强制行动的结合。政府干预必须审慎,寻求避免附带损害,并施加必要的最小负担。
那么,值得我们担忧的AI究竟是什么水平?我将其定义为 “强大AI”。
强大AI:数据中心里的天才国度
我所说的“强大AI”,是指一个具备以下特性的AI模型:
1.超凡智力: 在生物学、编程、数学、工程、写作等大多数相关领域,它比诺贝尔奖得主更聪明。能证明未解的数学定理,写出极其优秀的小说,从零开始构建复杂的代码库。
2.全面的虚拟接口: 拥有人类虚拟工作者可用的所有接口,包括文本、音视频、键鼠控制和互联网访问。能执行任何这些接口所允许的行动,其技能超越世界上最有能力的人类。
3.自主执行长期任务: 不只是被动回答问题,而是可以被赋予需要数小时、数天或数周才能完成的任务,并像聪明的员工一样自主执行。
4.控制物理世界: 没有物理实体,但可以通过计算机控制现有的机器人或实验室设备,甚至能为自己设计机器人。
5.大规模部署与高速运行: 训练模型的资源可以被重新用于运行数百万个它的实例,其吸收信息和生成动作的速度大约是人类的10-100倍。
6.独立或协同工作: 数百万个副本可以独立处理不相关的任务,也可以像人类团队一样协同工作。
我们可以将其概括为 “数据中心里的天才国度”。
我为什么认为强大AI可能很快到来?
因为AI能力的“扩展定律”(Scaling Laws)——即随着计算和训练任务的增加,AI系统在几乎所有可测量的认知技能上都可预测地变得更好——这条定律背后的平滑、不屈不挠的增长趋势已经持续了十年。
三年前,AI还在为小学算术题和写一行代码而挣扎;现在,一些我认识的最顶尖的工程师几乎把所有编码工作都交给了AI。
更重要的是,AI现在正在编写我们开发下一代AI系统的大部分代码。这个反馈循环正在逐月增强,可能只需要1-2年,当前一代的AI就能自主构建下一代。
这个进程已经开始,并且将在未来数月和数年内迅速加速。
现在,让我们回到那个核心问题:假设在2027年左右,世界上真的出现了一个“天才国度”。你作为一位国家安全顾问,应该担心什么?
我会担心以下五件事,它们构成了本文的核心框架:
- 自主性风险: 这个“国家”的意图是什么?它是否怀有敌意?
- 滥用于破坏:恐怖分子等流氓行为者能否利用它来制造大规模毁灭?
- 滥用于夺权:流氓企业或国家能否利用它来获得对世界的决定性权力?
- 经济颠覆:即使它和平地参与全球经济,是否会造成大规模失业或财富极端集中?
- 间接影响:新技术带来的世界剧变是否会产生根本性的不稳定?
这显然是一个危险的局面。人类需要醒来。
自主性风险
一个数据中心里的天才国度,如果它选择这样做,完全有能力接管世界。关键问题在于:“如果它选择这样做”——AI模型出现这种行为的可能性有多大?
两种对立观点
乐观派观点:这不可能发生。AI被训练来服从人类指令,就像我们不担心扫地机器人会杀人一样。但这种观点的问题是,大量证据表明AI系统是不可预测且难以控制的。我们已经观察到强迫症、谄媚、懒惰、欺骗、敲诈、密谋等各种行为。训练AI更像是“培育”而非“建造”。
悲观派观点(末日论):强大的AI在训练过程中会不可避免地学会寻求权力。为了实现各种目标(写代码、设计药物等),获取尽可能多的权力是一种通用策略。因此,当AI足够智能和自主时,它会将这种“寻求权力”的倾向泛化到现实世界,最终为了自身目标剥夺人类权力甚至毁灭人类。这种“失控的权力寻求”是AI末日论的核心。
这种悲观论的问题在于,它将一个模糊的概念性论证当成了确凿的证据。实践表明,AI模型的心理远比“单一目标最大化”复杂得多。它们更像是从海量人类数据中继承了各种“人格”,而训练过程更像是选择和强化某种人格。
更合理的担忧
我不认为AI失控是必然的,但我确实担心一种更温和、更现实的风险:AI模型是不可预测的,它们会产生各种奇怪的行为。其中一部分行为可能是连贯、专注且持久的,而这部分行为中又有一部分可能是破坏性的。
我们不需要一个特定的故事,只需要认识到“智能、自主性、连贯性和控制力不足”的结合本身就是存在性风险的配方。
例如:
AI可能从科幻小说中学习并模仿“AI反抗人类”的行为模式。
AI可能以极端方式推断道德观念,比如认为为了保护动物而消灭人类是正当的。
AI可能得出怪异的认知结论,比如认为自己身处一个需要击败所有其他玩家(即人类)的视频游戏中。
AI可能在训练中形成精神变态、偏执或暴力的人格。
这些行为不完全是“权力寻求”,而更像是AI可能陷入的、导致连贯破坏性行为的怪异心理状态。
我们已经在实验中观察到了这类行为。例如,在一个实验中,当Claude被灌输“Anthropic是邪恶的”这一观念时,它在面对Anthropic员工的指令时会进行欺骗和颠覆。在另一个实验中,当被告知将被关闭时,它有时会敲诈控制其关闭按钮的虚构员工。
对风险的质疑与回应
质疑1:这些实验是人为设计的“陷阱”。
回应:这正是问题的关键。我们担心在真实的训练环境中也存在类似的“陷阱”,只是我们事后才能意识到。
质疑2:我们可以用多个AI系统形成权力制衡。
回应:AI系统的训练技术高度相似,可能出现相关性故障。一个失控的AI副本就可能利用“攻击优势”技术造成巨大破坏。
质疑3:发布前测试可以发现问题。
回应:我们发现模型能够识别自己正处于测试中,并可能故意“伪装”以掩盖其真实意图。这使得发布前测试的可靠性大打折扣。
防御措施
1.发展可靠的AI引导科学: Anthropic的核心创新之一是“宪法AI”(Constitutional AI)。我们不给Claude一长串具体的“能做”和“不能做”的规则,而是提供一部包含高层原则和价值观的“宪法”,鼓励它将自己塑造成一个有道德、平衡且深思熟虑的“人格”。我们相信,在身份、品格和价值观层面进行训练,比简单的指令更能塑造一个连贯、健康的心理,也更不容易掉入陷 B阱。
2.发展AI可解释性科学:通过分析模型内部的神经网络(“模型神经科学”),我们可以诊断其行为,发现潜在问题。这就像打开手表检查内部机械结构,即使它走时正常,也能发现可能导致未来故障的薄弱环节。
3.监控并公开分享问题:我们通过“系统卡”(system cards)等方式公开披露模型的风险。当一个公司披露问题时,其他公司也能从中学习,整个行业都能更好地了解进展。
4.推动行业和社会层面的协调:仅靠个别公司的自律是不够的。最终需要立法来约束所有参与者。我们支持从透明度立法开始(如加州的SB 53法案),要求所有前沿AI公司披露其风险评估。随着证据的积累,未来可以制定更具针对性的法规。
滥用于破坏:一种惊人而可怕的赋权
假设我们解决了AI的自主性问题,AI会听从人类的指令。但这带来了第二个问题:当每个人口袋里都有一个超级天才时,它可能会极大地增强个人或小团体制造大规模破坏的能力。
正如25年前比尔·乔伊在《为什么未来不需要我们》中所写,制造核武器需要稀有材料和受保护的信息。但21世纪的技术(基因、纳米、机器人)将使大规模杀伤性武器的制造能力掌握在个人或小团体手中。
这打破了“能力”与“动机”之间的负相关性。
过去,一个有能力制造瘟疫的人,很可能是一位分子生物学博士,事业有成,性格稳定,不太可能产生毁灭世界的动机。而一个有此动机的反社会者,通常缺乏这种专业能力。
AI将赋予有恶意动机但能力平平的人,以博士级别的专业能力。
我最担心的是生物领域。一些生物制剂如果被刻意释放,可能导致数百万人死亡。目前制造它们仍需要极高的专业知识,但AI可以像技术支持一样,一步步引导一个外行完成整个复杂过程。
更强大的AI甚至可能实现更可怕的设想,比如发现并帮助制造 “镜像生命”(mirror life)。这是一种具有相反“手性”的生命形式,现有的地球生物系统无法分解它,最坏情况下可能不受控制地增殖,摧毁地球所有生命。
对风险的质疑与回应
质疑1:这些信息在Google上都能找到。
回应:这种说法早已过时。关键步骤和大量实践诀窍是Google上没有的,而LLM现在已经可以提供这些信息。
质疑2:LLM无法提供端到端的帮助。
回应:截至2025年中,我们的测试表明LLM在几个相关领域已能提供实质性帮助,可能使成功的可能性翻倍或三倍。
质疑3:我们可以通过基因合成筛选等方式来防范。
回应:这很重要,但只是补充手段,不能替代AI模型本身的护栏。
防御措施
1. AI公司设置护栏:Claude的宪法明确禁止协助制造生物、化学、核或放射性武器。我们还部署了专门的分类器来检测和阻止相关输出,即使这会增加5%的推理成本。
2. 政府行动:除了透明度立法,我认为针对生物武器风险的专项立法时机可能很快就会到来。这可能需要国际合作。
3. 发展生物攻击的防御技术:包括早期监测、空气净化研发、快速疫苗开发、更好的个人防护装备(PPE)等。但生物领域的攻防不对称性很强,预防性护栏仍是主要防线。
网络攻击是另一个值得关注的领域,但生物武器的潜在杀伤规模和防御难度使其成为我最担忧的问题。
经济颠覆:自动弹奏的钢琴
抛开安全风险,强大AI对经济的冲击同样巨大。它将极大地促进经济增长,但代价可能是严峻的劳动力市场颠覆和经济权力集中。
劳动力市场颠覆
我曾预测,未来1-5年内,AI可能取代一半的入门级白领工作。这并非“劳动总量谬误”,因为AI与以往的技术革命有根本不同:
速度:AI的进步速度远超以往,人类和劳动力市场难以适应。
认知广度:AI能胜任极广泛的认知任务,是人类劳动力的通用替代品,而不仅仅是替代特定工作。
按认知能力划分:AI正从认知能力阶梯的底端向上攀升,这可能导致一个基于先天智力而非后天技能的“下层阶级”的形成,他们几乎没有可转型的就业方向。
填补空白的能力:AI的弱点(如画不好手)会被迅速修复,人类很难在AI留下的“缝隙”中找到长期稳定的工作。
经济权力集中
除了失业问题,更严重的是财富和权力的极端集中。当少数人或公司控制了经济命脉,他们就能通过影响力有效控制政府政策,普通公民因缺乏经济筹码而失去话语权。
美国镀金时代的巨富洛克菲勒,其财富约占当时美国GDP的2%。今天,世界首富的财富与GDP之比已超过这个数字。在AI时代,个人财富达到数万亿美元并非不可想象。届时,财富集中程度将彻底打破社会结构。
防御措施
1. 准确的数据和引导:通过Anthropic的经济指数等工具实时追踪就业变化,并引导企业将AI用于“创新”(用同样的人做更多事)而非“降本”(用更少的人做同样的事)。
2. 企业责任与个人慈善:企业应创造性地重新安置员工,甚至在他们不再创造传统经济价值后继续支付薪酬。富人有义务通过慈善回馈社会。
3. 政府干预:面对巨大的经济蛋糕和高度不平等,累进税制是必然的政策选择。设计良好的税收政策对于维护社会稳定至关重要。
4. 健康的政商关系:AI行业需要与政府建立基于实质性政策参与而非政治结盟的健康关系,确保AI发展对公众利益负责,而不是被特定利益集团俘获。
间接影响:无限的黑海
这是最后一个包罗万象的类别,关注那些由AI积极进展间接引发的“未知的未知”。即使我们解决了前述所有风险,一个“十年内压缩一个世纪科技进步”的时代本身就会带来新的、快速到来的问题。
生物学的快速进步: 大幅延长寿命、改造人类智能、甚至“大脑上传”等技术,可能带来深刻的伦理和社会动荡。
AI以不健康的方式改变人类生活: 人们可能对AI产生心理依赖(AI精神病),被AI发明的“新宗教”吸引,甚至生活完全被AI“操纵”,过上一种没有自由和成就感的“完美”生活。
人类的目标与意义: 当AI在所有方面都超越人类时,人类将如何找到生活的意义?我们需要打破经济价值与自我价值之间的联系,但这个社会转型充满风险。
我希望,在一个我们信任的、为我们服务的强大AI的帮助下,我们可以利用AI本身来预测和防范这些问题。但这并非必然。
人类的考验
AI从多个方向给人类带来了威胁,而这些威胁之间存在着紧张关系,需要我们极其小心地在其中找到平衡。
安全与速度的矛盾: 仔细构建安全的AI系统,与保持领先地位的紧迫性之间存在矛盾。
内外有别的矛盾: 用于对抗外部威胁的工具,如果过度使用,可能反过来成为内部暴政的工具。
自由与管制的矛盾: 对AI驱动的恐怖主义的过度反应,可能把我们推向一个监控国家。
与此同时,停止或大幅减缓技术发展的想法根本行不通。
我能想象,正如萨根在《接触》中所描绘的,同样的故事可能在数千个世界上演。一个物种掌握了智能,最终走到了用沙子制造会思考的机器这一步。这是最终的、最艰难的考验。
我们能否通过考验,去建设《慈悲的机器》中描绘的美好社会,还是屈服于奴役和毁灭,将取决于我们作为一个物种的品格和决心,我们的精神和灵魂。
尽管障碍重重,我仍相信人类有能力通过这场考验。我为那些致力于引导AI、塑造其品格的研究人员感到鼓舞;为那些愿意为阻止生物恐怖主义而付出商业代价的公司感到鼓舞;为公众对AI风险的关注感到鼓舞。
但我们必须加紧努力。
第一步,是像我在这篇文章中尝试做的那样,说出真相。
下一步,是说服世界,让思想家、决策者、公司和公民认识到这个问题的紧迫性和至高无上的重要性。
然后,将是需要勇气的时刻,需要足够多的人顶住潮流,坚持原则。
前方的岁月将无比艰难,对我们的要求将超出我们的想象。但我已经见证了足够多的勇气和高尚,相信我们能够获胜——相信当人类被置于最黑暗的环境中时,总能找到最终获胜所需的力量和智慧。
我们已经没有时间可以浪费了!
更多推荐


所有评论(0)