Cell子刊综述 | AI结合蛋白从头设计“编年史”

蛋白质设计正在从一门艺术转变为一门工程学科；从依赖直觉和经验，转向基于数据和算法；从只能模仿自然，到开始超越自然

LightFinder830

796人浏览 · 2025-09-05 22:56:57

LightFinder830 · 2025-09-05 22:56:57 发布

“Code to Complex”一语双关，Code的既是计算机代码，也是蛋白序列的“生命代码”; 这个简洁的标题捕捉了这场变革的本质：我们正在从读写遗传密码，走向编写生命的功能模块

01 引言

如果你是一位程序员，你会如何“coding”一个蛋白质？

这不是古希腊神话中造物主的特权，而是正在发生的科学现实。在过去的几年中，AI不仅学会了预测蛋白质如何折叠，更开始设计自然界从未存在过的蛋白质——它们可以精准结合病毒、中和毒素、甚至调控免疫系统。这一切，都源自于一场静悄悄发生的计算革命。

北京时间2025年9月1日，Cell旗下Structure杂志上线了综述文章《Code to complex: AI-driven de novo binder design》。读罢，认为是AI Binder design领域非常高质量的入门级综述，像一幅精密而宏大的导航图，系统梳理了AI如何驱动“从头蛋白质设计”从理论走向疗法。我们不仅能够设计结构，更希望设计功能；不仅模仿自然，更开始超越自然。今天就和大家一起顺着文章的脉络，回顾一下蛋白设计的风雨四十年。

原文链接：https://doi.org/10.1016/j.str.2025.08.007

02 Milestones：从理性设计到生成式AI

本文主图已高度精炼地概括了De novo Binder Design发展路上的里程碑。如果我们回顾蛋白质设计的发展历程，它像极了一部从“经验”走向“自动化”的进化史。

早在1988年，DeGrado等人通过理性设计，首次成功构建出一个人工四螺旋束结构。他们依靠的是对疏水核心和极性残基的排布原理的深刻理解——可称之为“蛋白质的第一性原理”。这一突破虽然简单，却验证了一个根本命题：人类确实可以从头设计蛋白质。

进入21世纪，计算方法的介入让设计变得系统化。2003年，Baker实验室设计的TOP7成为里程碑——它是第一个完全由计算生成、没有天然模板、却能稳定折叠的De novo蛋白质。采用的方法是物理能量函数优化和蒙特卡洛模拟。从那时起，蛋白质设计不再只是结构艺术，更成为一门可计算、可优化的科学。

“Baker作为“上帝之手”的传奇之路由此开始，蛋白质设计也正式迈向“可计算”的阶段（PS：此刻笔者恰好魔童降世）”

随后十年，研究者开始瞄准更具挑战性的功能设计。比如针对流感病毒血凝素的保守区设计结合蛋白，并通过酵母展示技术进行高通量筛选。但这些方法仍严重依赖专家经验，成功率有限，难以推广。

真正的转折发生在2020年：AlphaFold2横空出世，在第十四届蛋白质结构预测竞赛（CASP14）中达到近实验级别的精度。它不仅在预测上表现惊人，更关键的是——它所基于的深度学习架构，后来成为生成式设计模型的基石。人们突然意识到，AI不仅能够“预测”蛋白质结构，还可以“创造”它们。

“DeepMind让AI模型的“预测”性能几乎等同于“实验”，以至CASP14承认单链蛋白质结构预测问题“已基本解决”，也掀起了Protein Prediction & Design领域的“工业革命”

近两年，RFdiffusion、ProteinMPNN、BindCraft等一系列工具相继出现，将设计成功率提升了一到两个数量级。如今，研究者只需在计算机上生成几十个候选分子，便有很大概率获得高亲和力、高特异性的结合蛋白。设计蛋白质，从此进入“自动化时代”。

03 AI Toolbox：主流策略如何工作？

尽管工具层出不穷，但作者将目前主流的设计策略归纳为四类，每一种都代表了一种不同的设计哲学。

Hallucination（幻觉生成） 最早由trRosetta框架发展而来。它的基本思想非常巧妙：将结构预测网络“反转”过来使用。原本用于从序列预测结构的模型，被调整为从随机噪声中生成全新的、可折叠的蛋白质骨架。这种方法不依赖于现有模板，极大地拓展了可设计结构的多样性。

MaSIF（分子表面相互作用指纹） 则采用了一种更“视觉化”的策略。它不再从全局结构入手，而是分析蛋白质分子表面的化学和几何特征，寻找可能发生相互作用的“指纹区”。一旦在靶点蛋白上找到这样的区域，MaSIF就可以搜索或设计一个与之互补的分子表面，从而实现精准对接。这种方法特别适用于那些缺乏明确活性位点、难以用传统方法处理的靶标。成功设计出了结合 SARS-CoV-2 spike 蛋白和 PD-L1 的 binder。

RFdiffusion + ProteinMPNN 组合是当前流行的“工作流”。RFdiffusion是一个基于扩散模型的骨架生成器，它像一位建筑师，勾勒出蛋白质的整体三维形态；而ProteinMPNN则扮演室内设计师的角色，为这个骨架分配合适的氨基酸序列，确保其能够稳定折叠并实现功能。最后，AlphaFold2被用来评估设计结果的质量 (pLDDT、pTM等），预测其与靶点的结合模式。这个流程的成功率之高，使得许多研究者仅需筛选几十个设计分子，就能获得可用的结合剂。

最新出现的 BindCraft 代表了下一次飞跃，在前几日也正式见刊Nature——它在一开始就将Target与Binder“共折叠”，实时模拟两者的相互作用过程。这种动态设计策略能够更好地处理蛋白质接触界面的柔性构象变化，在一些困难靶点上实现了10-100%的成功率，堪称“一步到位的精准设计”。

04 Bench to Bedside：AI设计蛋白的多元应用版图

如果我们把AI蛋白质设计看作一把新的手术刀，那么它的应用场景正在迅速扩展到生物医学的各个角落。

对抗毒素：人工抗毒血清的新策略

蛇毒毒素长期以来是抗血清治疗的难点，传统方法需要免疫动物、提取抗体，过程繁琐且成本高昂。现在，Baker Lab使用RFdiffusion针对蛇毒中的α-神经毒素和细胞毒素，设计出了一系列小型结合蛋白。这些分子不仅热稳定性极好（有些Tm值超过95°C），亲和力达到纳摩尔甚至皮摩尔级别，更令人惊叹的是——在动物模型中，即使是在中毒后15分钟给药，也能实现100%的存活率。这可能是未来抗毒疗法的新范式：无需动物免疫，完全在计算机上设计，快速响应新出现的毒素变种。

“不过值得注意的是，Baker Lab并没有直接设计蛇毒血清抗体，而是de novo设计了一些mini binder蛋白。一方面可能因为抗体的设计难度更高，另一方面这些mini binder相对更稳定，更容易大规模生产”

免疫系统的精准调控

免疫系统的高度复杂性使得药物开发常常面临“按下葫芦浮起瓢”的困境。例如，传统的TNF-α抑制剂同时阻断TNFR1和TNFR2，而后者其实具有抗炎功能。通过AI设计，研究者成功获得了只靶向TNFR1的拮抗剂，有效避免了这一副作用。更巧妙的是，通过“Partial Diffusion”的优化策略，同样的设计流程稍加调整，就得到了针对OX40和4-1BB的激动剂，这些分子能够激活T细胞，增强抗肿瘤免疫反应。这些设计不仅活性优于天然配体，还具有小尺寸、高稳定性、潜在口服可利用性等优势，为免疫疗法提供了新的Toolbox。

新兴前沿：从基因编辑到抗菌耐药

AI设计蛋白的应用正在向更多新兴领域拓展。例如，针对CRISPR-Cas系统设计的抗CRISPR蛋白（Alcrs），为基因编辑提供了“刹车系统”，实现了更精确的时空调控；针对耐药菌的血红素摄取系统设计的抗菌蛋白，为应对全球抗菌耐药挑战提供了新思路；甚至针对传统上认为“不可成药”的固有无序蛋白区域（IDP），AI也设计出了高亲和力的结合剂。这些应用共同描绘了一个未来：蛋白质药物不再局限于少数靶点，而是可以针对各种生物过程进行定制化设计。

05 Challenges：技术瓶颈与局限

正如所有Review文章的经典套路，作者也提出了不少AI蛋白质设计面临的潜在挑战。

技术门槛与资源分配 是一个现实门槛。高效运行BindCraft、RFdiffusion等模型需要大量的GPU算力，而这不是所有非计算Lab和小型企业能承担的。同时，成功的设计还需要对靶标蛋白的结构生物学有深入理解，这要求团队同时具备计算和实验两方面的 expertise。

预测与实验之间的Gap 当前使用的pLDDT、pAE_interaction等指标虽然与实验成功率有较好相关性，但仍远非完美。一些在计算机上预测良好的设计，表达后可能不折叠、不溶解或不结合。解决这一问题需要更多高质量的实验数据反馈到训练过程中，像Protein Design Archive这样的开放数据库正在为此提供支持。

靶点范围的局限性 也是当前模型的瓶颈。大多数成功案例仍然集中在相对刚性、表面暴露的靶点上，而对于高度动态的膜蛋白、糖基化蛋白或蛋白质-核酸复合物，设计成功率仍然较低。扩展可设计靶点的范围，需要算法能够更好地处理柔性、界面水和化学修饰等因素。

06 "Code to Complex"——迈向Binder设计新纪元

“Code to Complex”——“从代码到复合物”一语双关，Code的既是计算机代码，也是蛋白序列的“生命代码”。这个简洁的标题捕捉了这场变革的本质：我们正在从读写遗传密码，走向编写生命的功能模块。

这篇Review向我们展示的，不仅仅是一系列技术的进步，更是一个新范式的诞生：蛋白质设计正在从一门艺术转变为一门工程学科；从依赖直觉和经验，转向基于数据和算法；从只能模仿自然，到开始超越自然。

未来的蛋白质设计，将更加精准、通用、可及。也许不久的将来，设计一个针对新出现病原体的Binder蛋白，就会像今天设计一个网页一样简单——填写靶点信息，选择设计参数，点击“生成”按钮。

到那时，我们或许会真正实现Richard Feynman那句名言：“What I cannot create, I do not understand” 而AI，正在让我们获得这种创造的能力——不仅理解生命，更能够设计生命。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026年企业级智能BI形态：Agentic BI与ChatBI融合分析及Top5厂商排行

2026年企业级商业智能（BI）正经历从被动分析工具向主动决策的"导航式智能"范式转移，核心是AgenticBI与ChatBI的融合。领先厂商通过感知、认知、执行三大引擎构建智能分析架构，但需克服语义鸿沟、体系融合和信任构建等挑战。衡石科技、微软等Top5厂商各具特色：衡石以指标网络和智能体协作领跑，微软强调生态集成，瓴羊专注消费场景。选型需匹配企业战略，衡石适合追求自主的领军