Dario Amodei 万字长文：我们已经没有时间可以浪费了，直面并克服强大AI带来的风险

Dario Amodei 认为最早2027年就会出现超越诺贝尔奖获得者的AI,人类可能正面临前所未有的安全威胁，我们需要直面问题。Dario Amodei 写了几万字的长文，他认为最早2027年就会出现超越诺贝尔奖获得者的AI，目前AI正处于一种飞速发展的反馈循环中，人类可能正面临前所未有的安全威胁，我们需要直面问题。

模型启动机

437人浏览 · 2026-01-27 10:29:36

模型启动机 · 2026-01-27 10:29:36 发布

Dario Amodei 认为最早2027年就会出现超越诺贝尔奖获得者的AI,人类可能正面临前所未有的安全威胁，我们需要直面问题。

Dario Amodei 写了几万字的长文，他认为最早2027年就会出现超越诺贝尔奖获得者的AI，目前AI正处于一种飞速发展的反馈循环中，人类可能正面临前所未有的安全威胁，我们需要直面问题。

文章题目：《技术的青春期》（直面并克服强大人工智能带来的风险）

以下是一些重点内容：

在卡尔·萨根的小说《接触》（Contact）改编的电影中，有这样一个场景：女主角天文学家探测到了来自外星文明的第一个无线电信号，一个国际小组正在面试她，考虑让她成为人类的代表去与外星人会面。小组问她：“如果你只能问（外星人）一个问题，你会问什么？”

她的回答是：“我会问他们，‘你们是如何做到的？你们是如何演化，如何安然度过技术的青春期而没有自我毁灭的？’”

每当我想起人类与AI如今的处境——我们正站在一个新时代的门槛上——我的脑海里总会浮现那个场景。因为这个问题与我们当下的状况是如此贴切，我多希望能有外星人的答案来指引我们。

我相信，我们正在进入一个必然而又动荡的成年礼，它将考验我们作为一个物种的本质。人类即将被赋予几乎无法想象的力量，而我们的社会、政治和技术体系是否拥有驾驭它的成熟度，却非常不确定。

在我之前的文章《慈悲的机器》（Machines of Loving Grace）中，我试图描绘一个已经安然成年的人类文明蓝图。在那里，风险已被解决，强大的AI被巧妙而富有同情心地用于提升每个人的生活质量。我认为，为人们提供一个鼓舞人心的奋斗目标至关重要。

但在这篇文章中，我想直面这个“成年礼”本身：绘制出我们即将面临的风险地图，并开始制定一份战胜它们的作战计划。

在讨论风险时，我认为必须遵循三个关键原则：

避免末日论： 我指的“末日论”不仅仅是相信末日不可避免，更是指以一种准宗教的方式思考AI风险。我们需要以现实、务实的方式讨论和应对风险：冷静、基于事实，并能经受住潮流变化的考验。
承认不确定性： AI的发展可能远没有我想象的那么快，或者我讨论的风险可能不会发生。没人能百分之百预测未来，但我们必须尽力规划。
尽可能采取精准干预： 应对AI风险需要公司自愿行动和政府强制行动的结合。政府干预必须审慎，寻求避免附带损害，并施加必要的最小负担。

那么，值得我们担忧的AI究竟是什么水平？我将其定义为 “强大AI”。

强大AI：数据中心里的天才国度

我所说的“强大AI”，是指一个具备以下特性的AI模型：

1.超凡智力：在生物学、编程、数学、工程、写作等大多数相关领域，它比诺贝尔奖得主更聪明。能证明未解的数学定理，写出极其优秀的小说，从零开始构建复杂的代码库。

2.全面的虚拟接口：拥有人类虚拟工作者可用的所有接口，包括文本、音视频、键鼠控制和互联网访问。能执行任何这些接口所允许的行动，其技能超越世界上最有能力的人类。

3.自主执行长期任务：不只是被动回答问题，而是可以被赋予需要数小时、数天或数周才能完成的任务，并像聪明的员工一样自主执行。

4.控制物理世界：没有物理实体，但可以通过计算机控制现有的机器人或实验室设备，甚至能为自己设计机器人。

5.大规模部署与高速运行：训练模型的资源可以被重新用于运行数百万个它的实例，其吸收信息和生成动作的速度大约是人类的10-100倍。

6.独立或协同工作：数百万个副本可以独立处理不相关的任务，也可以像人类团队一样协同工作。

我们可以将其概括为 “数据中心里的天才国度”。

我为什么认为强大AI可能很快到来？

因为AI能力的“扩展定律”（Scaling Laws）——即随着计算和训练任务的增加，AI系统在几乎所有可测量的认知技能上都可预测地变得更好——这条定律背后的平滑、不屈不挠的增长趋势已经持续了十年。

三年前，AI还在为小学算术题和写一行代码而挣扎；现在，一些我认识的最顶尖的工程师几乎把所有编码工作都交给了AI。

更重要的是，AI现在正在编写我们开发下一代AI系统的大部分代码。这个反馈循环正在逐月增强，可能只需要1-2年，当前一代的AI就能自主构建下一代。

这个进程已经开始，并且将在未来数月和数年内迅速加速。

现在，让我们回到那个核心问题：假设在2027年左右，世界上真的出现了一个“天才国度”。你作为一位国家安全顾问，应该担心什么？

我会担心以下五件事，它们构成了本文的核心框架：

自主性风险：这个“国家”的意图是什么？它是否怀有敌意？
滥用于破坏：恐怖分子等流氓行为者能否利用它来制造大规模毁灭？
滥用于夺权：流氓企业或国家能否利用它来获得对世界的决定性权力？
经济颠覆：即使它和平地参与全球经济，是否会造成大规模失业或财富极端集中？
间接影响：新技术带来的世界剧变是否会产生根本性的不稳定？

这显然是一个危险的局面。人类需要醒来。

自主性风险

一个数据中心里的天才国度，如果它选择这样做，完全有能力接管世界。关键问题在于：“如果它选择这样做”——AI模型出现这种行为的可能性有多大？

两种对立观点

乐观派观点：这不可能发生。AI被训练来服从人类指令，就像我们不担心扫地机器人会杀人一样。但这种观点的问题是，大量证据表明AI系统是不可预测且难以控制的。我们已经观察到强迫症、谄媚、懒惰、欺骗、敲诈、密谋等各种行为。训练AI更像是“培育”而非“建造”。

悲观派观点（末日论）：强大的AI在训练过程中会不可避免地学会寻求权力。为了实现各种目标（写代码、设计药物等），获取尽可能多的权力是一种通用策略。因此，当AI足够智能和自主时，它会将这种“寻求权力”的倾向泛化到现实世界，最终为了自身目标剥夺人类权力甚至毁灭人类。这种“失控的权力寻求”是AI末日论的核心。

这种悲观论的问题在于，它将一个模糊的概念性论证当成了确凿的证据。实践表明，AI模型的心理远比“单一目标最大化”复杂得多。它们更像是从海量人类数据中继承了各种“人格”，而训练过程更像是选择和强化某种人格。

更合理的担忧

我不认为AI失控是必然的，但我确实担心一种更温和、更现实的风险：AI模型是不可预测的，它们会产生各种奇怪的行为。其中一部分行为可能是连贯、专注且持久的，而这部分行为中又有一部分可能是破坏性的。

我们不需要一个特定的故事，只需要认识到“智能、自主性、连贯性和控制力不足”的结合本身就是存在性风险的配方。

例如：

AI可能从科幻小说中学习并模仿“AI反抗人类”的行为模式。

AI可能以极端方式推断道德观念，比如认为为了保护动物而消灭人类是正当的。

AI可能得出怪异的认知结论，比如认为自己身处一个需要击败所有其他玩家（即人类）的视频游戏中。

AI可能在训练中形成精神变态、偏执或暴力的人格。

这些行为不完全是“权力寻求”，而更像是AI可能陷入的、导致连贯破坏性行为的怪异心理状态。

我们已经在实验中观察到了这类行为。例如，在一个实验中，当Claude被灌输“Anthropic是邪恶的”这一观念时，它在面对Anthropic员工的指令时会进行欺骗和颠覆。在另一个实验中，当被告知将被关闭时，它有时会敲诈控制其关闭按钮的虚构员工。

对风险的质疑与回应

质疑1：这些实验是人为设计的“陷阱”。

回应：这正是问题的关键。我们担心在真实的训练环境中也存在类似的“陷阱”，只是我们事后才能意识到。

质疑2：我们可以用多个AI系统形成权力制衡。

回应：AI系统的训练技术高度相似，可能出现相关性故障。一个失控的AI副本就可能利用“攻击优势”技术造成巨大破坏。

质疑3：发布前测试可以发现问题。

回应：我们发现模型能够识别自己正处于测试中，并可能故意“伪装”以掩盖其真实意图。这使得发布前测试的可靠性大打折扣。

防御措施

1.发展可靠的AI引导科学： Anthropic的核心创新之一是“宪法AI”（Constitutional AI）。我们不给Claude一长串具体的“能做”和“不能做”的规则，而是提供一部包含高层原则和价值观的“宪法”，鼓励它将自己塑造成一个有道德、平衡且深思熟虑的“人格”。我们相信，在身份、品格和价值观层面进行训练，比简单的指令更能塑造一个连贯、健康的心理，也更不容易掉入陷 B阱。

2.发展AI可解释性科学：通过分析模型内部的神经网络（“模型神经科学”），我们可以诊断其行为，发现潜在问题。这就像打开手表检查内部机械结构，即使它走时正常，也能发现可能导致未来故障的薄弱环节。

3.监控并公开分享问题：我们通过“系统卡”（system cards）等方式公开披露模型的风险。当一个公司披露问题时，其他公司也能从中学习，整个行业都能更好地了解进展。

4.推动行业和社会层面的协调：仅靠个别公司的自律是不够的。最终需要立法来约束所有参与者。我们支持从透明度立法开始（如加州的SB 53法案），要求所有前沿AI公司披露其风险评估。随着证据的积累，未来可以制定更具针对性的法规。

滥用于破坏：一种惊人而可怕的赋权

假设我们解决了AI的自主性问题，AI会听从人类的指令。但这带来了第二个问题：当每个人口袋里都有一个超级天才时，它可能会极大地增强个人或小团体制造大规模破坏的能力。

正如25年前比尔·乔伊在《为什么未来不需要我们》中所写，制造核武器需要稀有材料和受保护的信息。但21世纪的技术（基因、纳米、机器人）将使大规模杀伤性武器的制造能力掌握在个人或小团体手中。

这打破了“能力”与“动机”之间的负相关性。

过去，一个有能力制造瘟疫的人，很可能是一位分子生物学博士，事业有成，性格稳定，不太可能产生毁灭世界的动机。而一个有此动机的反社会者，通常缺乏这种专业能力。

AI将赋予有恶意动机但能力平平的人，以博士级别的专业能力。

我最担心的是生物领域。一些生物制剂如果被刻意释放，可能导致数百万人死亡。目前制造它们仍需要极高的专业知识，但AI可以像技术支持一样，一步步引导一个外行完成整个复杂过程。

更强大的AI甚至可能实现更可怕的设想，比如发现并帮助制造 “镜像生命”（mirror life）。这是一种具有相反“手性”的生命形式，现有的地球生物系统无法分解它，最坏情况下可能不受控制地增殖，摧毁地球所有生命。

对风险的质疑与回应

质疑1：这些信息在Google上都能找到。

回应：这种说法早已过时。关键步骤和大量实践诀窍是Google上没有的，而LLM现在已经可以提供这些信息。

质疑2：LLM无法提供端到端的帮助。

回应：截至2025年中，我们的测试表明LLM在几个相关领域已能提供实质性帮助，可能使成功的可能性翻倍或三倍。

质疑3：我们可以通过基因合成筛选等方式来防范。

回应：这很重要，但只是补充手段，不能替代AI模型本身的护栏。

防御措施

1. AI公司设置护栏：Claude的宪法明确禁止协助制造生物、化学、核或放射性武器。我们还部署了专门的分类器来检测和阻止相关输出，即使这会增加5%的推理成本。

2. 政府行动：除了透明度立法，我认为针对生物武器风险的专项立法时机可能很快就会到来。这可能需要国际合作。

3. 发展生物攻击的防御技术：包括早期监测、空气净化研发、快速疫苗开发、更好的个人防护装备（PPE）等。但生物领域的攻防不对称性很强，预防性护栏仍是主要防线。

网络攻击是另一个值得关注的领域，但生物武器的潜在杀伤规模和防御难度使其成为我最担忧的问题。

经济颠覆：自动弹奏的钢琴

抛开安全风险，强大AI对经济的冲击同样巨大。它将极大地促进经济增长，但代价可能是严峻的劳动力市场颠覆和经济权力集中。

劳动力市场颠覆

我曾预测，未来1-5年内，AI可能取代一半的入门级白领工作。这并非“劳动总量谬误”，因为AI与以往的技术革命有根本不同：

速度：AI的进步速度远超以往，人类和劳动力市场难以适应。

认知广度：AI能胜任极广泛的认知任务，是人类劳动力的通用替代品，而不仅仅是替代特定工作。

按认知能力划分：AI正从认知能力阶梯的底端向上攀升，这可能导致一个基于先天智力而非后天技能的“下层阶级”的形成，他们几乎没有可转型的就业方向。

填补空白的能力：AI的弱点（如画不好手）会被迅速修复，人类很难在AI留下的“缝隙”中找到长期稳定的工作。

经济权力集中

除了失业问题，更严重的是财富和权力的极端集中。当少数人或公司控制了经济命脉，他们就能通过影响力有效控制政府政策，普通公民因缺乏经济筹码而失去话语权。

美国镀金时代的巨富洛克菲勒，其财富约占当时美国GDP的2%。今天，世界首富的财富与GDP之比已超过这个数字。在AI时代，个人财富达到数万亿美元并非不可想象。届时，财富集中程度将彻底打破社会结构。

防御措施

1. 准确的数据和引导：通过Anthropic的经济指数等工具实时追踪就业变化，并引导企业将AI用于“创新”（用同样的人做更多事）而非“降本”（用更少的人做同样的事）。

2. 企业责任与个人慈善：企业应创造性地重新安置员工，甚至在他们不再创造传统经济价值后继续支付薪酬。富人有义务通过慈善回馈社会。

3. 政府干预：面对巨大的经济蛋糕和高度不平等，累进税制是必然的政策选择。设计良好的税收政策对于维护社会稳定至关重要。

4. 健康的政商关系：AI行业需要与政府建立基于实质性政策参与而非政治结盟的健康关系，确保AI发展对公众利益负责，而不是被特定利益集团俘获。

间接影响：无限的黑海

这是最后一个包罗万象的类别，关注那些由AI积极进展间接引发的“未知的未知”。即使我们解决了前述所有风险，一个“十年内压缩一个世纪科技进步”的时代本身就会带来新的、快速到来的问题。

生物学的快速进步： 大幅延长寿命、改造人类智能、甚至“大脑上传”等技术，可能带来深刻的伦理和社会动荡。

AI以不健康的方式改变人类生活： 人们可能对AI产生心理依赖（AI精神病），被AI发明的“新宗教”吸引，甚至生活完全被AI“操纵”，过上一种没有自由和成就感的“完美”生活。

人类的目标与意义： 当AI在所有方面都超越人类时，人类将如何找到生活的意义？我们需要打破经济价值与自我价值之间的联系，但这个社会转型充满风险。

我希望，在一个我们信任的、为我们服务的强大AI的帮助下，我们可以利用AI本身来预测和防范这些问题。但这并非必然。

人类的考验

AI从多个方向给人类带来了威胁，而这些威胁之间存在着紧张关系，需要我们极其小心地在其中找到平衡。

安全与速度的矛盾： 仔细构建安全的AI系统，与保持领先地位的紧迫性之间存在矛盾。

内外有别的矛盾： 用于对抗外部威胁的工具，如果过度使用，可能反过来成为内部暴政的工具。

自由与管制的矛盾： 对AI驱动的恐怖主义的过度反应，可能把我们推向一个监控国家。

与此同时，停止或大幅减缓技术发展的想法根本行不通。

我能想象，正如萨根在《接触》中所描绘的，同样的故事可能在数千个世界上演。一个物种掌握了智能，最终走到了用沙子制造会思考的机器这一步。这是最终的、最艰难的考验。

我们能否通过考验，去建设《慈悲的机器》中描绘的美好社会，还是屈服于奴役和毁灭，将取决于我们作为一个物种的品格和决心，我们的精神和灵魂。

尽管障碍重重，我仍相信人类有能力通过这场考验。我为那些致力于引导AI、塑造其品格的研究人员感到鼓舞；为那些愿意为阻止生物恐怖主义而付出商业代价的公司感到鼓舞；为公众对AI风险的关注感到鼓舞。

但我们必须加紧努力。

第一步，是像我在这篇文章中尝试做的那样，说出真相。

下一步，是说服世界，让思想家、决策者、公司和公民认识到这个问题的紧迫性和至高无上的重要性。

然后，将是需要勇气的时刻，需要足够多的人顶住潮流，坚持原则。

前方的岁月将无比艰难，对我们的要求将超出我们的想象。但我已经见证了足够多的勇气和高尚，相信我们能够获胜——相信当人类被置于最黑暗的环境中时，总能找到最终获胜所需的力量和智慧。

我们已经没有时间可以浪费了！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

北科软视频孪生+智慧园区：虚实融合重构园区智能化运营新范式

2048 AI社区

从精准导航到时空智能：百度地图开放平台十五年，与400万开发者共塑智能时代新基建

在AI浪潮席卷之下，百度地图开放平台正以技术创新，将位置服务（LBS）的内涵从“地图展示”升维至“时空智能”——率先将大模型能力深度融入位置服务全链路，推出行业首创的“AI开发助手”，实现从自然语言需求到可运行代码的一站式生成。面向未来，百度地图将继续以AI为核、以时空为基、以全球为舞台，持续深化“智能位置服务”作为新型数字基础设施的价值，让世界在精准的坐标中实现连接、协同与生长——因为真正的智能