Cell子刊综述 | AI结合蛋白从头设计“编年史”
蛋白质设计正在从一门艺术转变为一门工程学科;从依赖直觉和经验,转向基于数据和算法;从只能模仿自然,到开始超越自然
“Code to Complex”一语双关,Code的既是计算机代码,也是蛋白序列的“生命代码”; 这个简洁的标题捕捉了这场变革的本质:我们正在从读写遗传密码,走向编写生命的功能模块
01
引言
如果你是一位程序员,你会如何“coding”一个蛋白质?
这不是古希腊神话中造物主的特权,而是正在发生的科学现实。在过去的几年中,AI不仅学会了预测蛋白质如何折叠,更开始设计自然界从未存在过的蛋白质——它们可以精准结合病毒、中和毒素、甚至调控免疫系统。这一切,都源自于一场静悄悄发生的计算革命。
北京时间2025年9月1日,Cell旗下Structure杂志上线了综述文章《Code to complex: AI-driven de novo binder design》。读罢,认为是AI Binder design领域非常高质量的入门级综述,像一幅精密而宏大的导航图,系统梳理了AI如何驱动“从头蛋白质设计”从理论走向疗法。我们不仅能够设计结构,更希望设计功能;不仅模仿自然,更开始超越自然。今天就和大家一起顺着文章的脉络,回顾一下蛋白设计的风雨四十年。
原文链接:https://doi.org/10.1016/j.str.2025.08.007
02
Milestones:从理性设计到生成式AI
本文主图已高度精炼地概括了De novo Binder Design发展路上的里程碑。如果我们回顾蛋白质设计的发展历程,它像极了一部从“经验”走向“自动化”的进化史。
-
早在1988年,DeGrado等人通过理性设计,首次成功构建出一个人工四螺旋束结构。他们依靠的是对疏水核心和极性残基的排布原理的深刻理解——可称之为“蛋白质的第一性原理”。这一突破虽然简单,却验证了一个根本命题:人类确实可以从头设计蛋白质。
-
进入21世纪,计算方法的介入让设计变得系统化。2003年,Baker实验室设计的TOP7成为里程碑——它是第一个完全由计算生成、没有天然模板、却能稳定折叠的De novo蛋白质。采用的方法是物理能量函数优化和蒙特卡洛模拟。从那时起,蛋白质设计不再只是结构艺术,更成为一门可计算、可优化的科学。
“Baker作为“上帝之手”的传奇之路由此开始,蛋白质设计也正式迈向“可计算”的阶段 (PS:此刻笔者恰好魔童降世)”
-
随后十年,研究者开始瞄准更具挑战性的功能设计。比如针对流感病毒血凝素的保守区设计结合蛋白,并通过酵母展示技术进行高通量筛选。但这些方法仍严重依赖专家经验,成功率有限,难以推广。
-
真正的转折发生在2020年:AlphaFold2横空出世,在第十四届蛋白质结构预测竞赛(CASP14)中达到近实验级别的精度。它不仅在预测上表现惊人,更关键的是——它所基于的深度学习架构,后来成为生成式设计模型的基石。人们突然意识到,AI不仅能够“预测”蛋白质结构,还可以“创造”它们。
“DeepMind让AI模型的“预测”性能几乎等同于“实验”,以至CASP14承认单链蛋白质结构预测问题“已基本解决”,也掀起了Protein Prediction & Design领域的“工业革命”
-
近两年,RFdiffusion、ProteinMPNN、BindCraft等一系列工具相继出现,将设计成功率提升了一到两个数量级。如今,研究者只需在计算机上生成几十个候选分子,便有很大概率获得高亲和力、高特异性的结合蛋白。设计蛋白质,从此进入“自动化时代”。
03
AI Toolbox:主流策略如何工作?
尽管工具层出不穷,但作者将目前主流的设计策略归纳为四类,每一种都代表了一种不同的设计哲学。
Hallucination(幻觉生成) 最早由trRosetta框架发展而来。它的基本思想非常巧妙:将结构预测网络“反转”过来使用。原本用于从序列预测结构的模型,被调整为从随机噪声中生成全新的、可折叠的蛋白质骨架。这种方法不依赖于现有模板,极大地拓展了可设计结构的多样性。
MaSIF(分子表面相互作用指纹) 则采用了一种更“视觉化”的策略。它不再从全局结构入手,而是分析蛋白质分子表面的化学和几何特征,寻找可能发生相互作用的“指纹区”。一旦在靶点蛋白上找到这样的区域,MaSIF就可以搜索或设计一个与之互补的分子表面,从而实现精准对接。这种方法特别适用于那些缺乏明确活性位点、难以用传统方法处理的靶标。成功设计出了结合 SARS-CoV-2 spike 蛋白和 PD-L1 的 binder。
RFdiffusion + ProteinMPNN 组合是当前流行的“工作流”。RFdiffusion是一个基于扩散模型的骨架生成器,它像一位建筑师,勾勒出蛋白质的整体三维形态;而ProteinMPNN则扮演室内设计师的角色,为这个骨架分配合适的氨基酸序列,确保其能够稳定折叠并实现功能。最后,AlphaFold2被用来评估设计结果的质量 (pLDDT、pTM等),预测其与靶点的结合模式。这个流程的成功率之高,使得许多研究者仅需筛选几十个设计分子,就能获得可用的结合剂。
最新出现的 BindCraft 代表了下一次飞跃,在前几日也正式见刊Nature——它在一开始就将Target与Binder“共折叠”,实时模拟两者的相互作用过程。这种动态设计策略能够更好地处理蛋白质接触界面的柔性构象变化,在一些困难靶点上实现了10-100%的成功率,堪称“一步到位的精准设计”。
04
Bench to Bedside:AI设计蛋白的多元应用版图
如果我们把AI蛋白质设计看作一把新的手术刀,那么它的应用场景正在迅速扩展到生物医学的各个角落。
对抗毒素:人工抗毒血清的新策略
蛇毒毒素长期以来是抗血清治疗的难点,传统方法需要免疫动物、提取抗体,过程繁琐且成本高昂。现在,Baker Lab使用RFdiffusion针对蛇毒中的α-神经毒素和细胞毒素,设计出了一系列小型结合蛋白。这些分子不仅热稳定性极好(有些Tm值超过95°C),亲和力达到纳摩尔甚至皮摩尔级别,更令人惊叹的是——在动物模型中,即使是在中毒后15分钟给药,也能实现100%的存活率。这可能是未来抗毒疗法的新范式:无需动物免疫,完全在计算机上设计,快速响应新出现的毒素变种。
“不过值得注意的是,Baker Lab并没有直接设计蛇毒血清抗体,而是de novo设计了一些mini binder蛋白。一方面可能因为抗体的设计难度更高,另一方面这些mini binder相对更稳定,更容易大规模生产”
免疫系统的精准调控
免疫系统的高度复杂性使得药物开发常常面临“按下葫芦浮起瓢”的困境。例如,传统的TNF-α抑制剂同时阻断TNFR1和TNFR2,而后者其实具有抗炎功能。通过AI设计,研究者成功获得了只靶向TNFR1的拮抗剂,有效避免了这一副作用。更巧妙的是,通过“Partial Diffusion”的优化策略,同样的设计流程稍加调整,就得到了针对OX40和4-1BB的激动剂,这些分子能够激活T细胞,增强抗肿瘤免疫反应。这些设计不仅活性优于天然配体,还具有小尺寸、高稳定性、潜在口服可利用性等优势,为免疫疗法提供了新的Toolbox。
新兴前沿:从基因编辑到抗菌耐药
AI设计蛋白的应用正在向更多新兴领域拓展。例如,针对CRISPR-Cas系统设计的抗CRISPR蛋白(Alcrs),为基因编辑提供了“刹车系统”,实现了更精确的时空调控;针对耐药菌的血红素摄取系统设计的抗菌蛋白,为应对全球抗菌耐药挑战提供了新思路;甚至针对传统上认为“不可成药”的固有无序蛋白区域(IDP),AI也设计出了高亲和力的结合剂。这些应用共同描绘了一个未来:蛋白质药物不再局限于少数靶点,而是可以针对各种生物过程进行定制化设计。
05
Challenges:技术瓶颈与局限
正如所有Review文章的经典套路,作者也提出了不少AI蛋白质设计面临的潜在挑战。
技术门槛与资源分配 是一个现实门槛。高效运行BindCraft、RFdiffusion等模型需要大量的GPU算力,而这不是所有非计算Lab和小型企业能承担的。同时,成功的设计还需要对靶标蛋白的结构生物学有深入理解,这要求团队同时具备计算和实验两方面的 expertise。
预测与实验之间的Gap 当前使用的pLDDT、pAE_interaction等指标虽然与实验成功率有较好相关性,但仍远非完美。一些在计算机上预测良好的设计,表达后可能不折叠、不溶解或不结合。解决这一问题需要更多高质量的实验数据反馈到训练过程中,像Protein Design Archive这样的开放数据库正在为此提供支持。
靶点范围的局限性 也是当前模型的瓶颈。大多数成功案例仍然集中在相对刚性、表面暴露的靶点上,而对于高度动态的膜蛋白、糖基化蛋白或蛋白质-核酸复合物,设计成功率仍然较低。扩展可设计靶点的范围,需要算法能够更好地处理柔性、界面水和化学修饰等因素。
06
"Code to Complex"——迈向Binder设计新纪元
“Code to Complex”——“从代码到复合物”一语双关,Code的既是计算机代码,也是蛋白序列的“生命代码”。这个简洁的标题捕捉了这场变革的本质:我们正在从读写遗传密码,走向编写生命的功能模块。
这篇Review向我们展示的,不仅仅是一系列技术的进步,更是一个新范式的诞生:蛋白质设计正在从一门艺术转变为一门工程学科;从依赖直觉和经验,转向基于数据和算法;从只能模仿自然,到开始超越自然。
未来的蛋白质设计,将更加精准、通用、可及。也许不久的将来,设计一个针对新出现病原体的Binder蛋白,就会像今天设计一个网页一样简单——填写靶点信息,选择设计参数,点击“生成”按钮。
到那时,我们或许会真正实现Richard Feynman那句名言:“What I cannot create, I do not understand” 而AI,正在让我们获得这种创造的能力——不仅理解生命,更能够设计生命。
更多推荐
所有评论(0)