“Code to Complex”一语双关,Code的既是计算机代码,也是蛋白序列的“生命代码”; 这个简洁的标题捕捉了这场变革的本质:我们正在从读写遗传密码,走向编写生命的功能模块

01

引言

    如果你是一位程序员,你会如何“coding”一个蛋白质?

    这不是古希腊神话中造物主的特权,而是正在发生的科学现实。在过去的几年中,AI不仅学会了预测蛋白质如何折叠,更开始设计自然界从未存在过的蛋白质——它们可以精准结合病毒、中和毒素、甚至调控免疫系统。这一切,都源自于一场静悄悄发生的计算革命。

    北京时间2025年9月1日,Cell旗下Structure杂志上线了综述文章《Code to complex: AI-driven de novo binder design》。读罢,认为是AI Binder design领域非常高质量的入门级综述,像一幅精密而宏大的导航图,系统梳理了AI如何驱动“从头蛋白质设计”从理论走向疗法。我们不仅能够设计结构,更希望设计功能;不仅模仿自然,更开始超越自然。今天就和大家一起顺着文章的脉络,回顾一下蛋白设计的风雨四十年。

0

原文链接:https://doi.org/10.1016/j.str.2025.08.007


02

Milestones:从理性设计到生成式AI

    本文主图已高度精炼地概括了De novo Binder Design发展路上的里程碑。如果我们回顾蛋白质设计的发展历程,它像极了一部从“经验”走向“自动化”的进化史。

0

  • 早在1988年,DeGrado等人通过理性设计,首次成功构建出一个人工四螺旋束结构。他们依靠的是对疏水核心和极性残基的排布原理的深刻理解——可称之为“蛋白质的第一性原理”。这一突破虽然简单,却验证了一个根本命题:人类确实可以从头设计蛋白质

  • 进入21世纪,计算方法的介入让设计变得系统化。2003年,Baker实验室设计的TOP7成为里程碑——它是第一个完全由计算生成、没有天然模板、却能稳定折叠的De novo蛋白质。采用的方法是物理能量函数优化和蒙特卡洛模拟。从那时起,蛋白质设计不再只是结构艺术,更成为一门可计算、可优化的科学。

    “Baker作为“上帝之手”的传奇之路由此开始,蛋白质设计也正式迈向“可计算”的阶段 (PS:此刻笔者恰好魔童降世)”

  • 随后十年,研究者开始瞄准更具挑战性的功能设计。比如针对流感病毒血凝素的保守区设计结合蛋白,并通过酵母展示技术进行高通量筛选。但这些方法仍严重依赖专家经验,成功率有限,难以推广。

  • 真正的转折发生在2020年:AlphaFold2横空出世,在第十四届蛋白质结构预测竞赛(CASP14)中达到近实验级别的精度。它不仅在预测上表现惊人,更关键的是——它所基于的深度学习架构,后来成为生成式设计模型的基石。人们突然意识到,AI不仅能够“预测”蛋白质结构,还可以“创造”它们。

    “DeepMind让AI模型的“预测”性能几乎等同于“实验”,以至CASP14承认单链蛋白质结构预测问题“已基本解决”,也掀起了Protein Prediction & Design领域的“工业革命”

  • 近两年,RFdiffusion、ProteinMPNN、BindCraft等一系列工具相继出现,将设计成功率提升了一到两个数量级。如今,研究者只需在计算机上生成几十个候选分子,便有很大概率获得高亲和力、高特异性的结合蛋白。设计蛋白质,从此进入“自动化时代”。


03

AI Toolbox:主流策略如何工作?

    尽管工具层出不穷,但作者将目前主流的设计策略归纳为四类,每一种都代表了一种不同的设计哲学。

    Hallucination(幻觉生成) 最早由trRosetta框架发展而来。它的基本思想非常巧妙:将结构预测网络“反转”过来使用。原本用于从序列预测结构的模型,被调整为从随机噪声中生成全新的、可折叠的蛋白质骨架。这种方法不依赖于现有模板,极大地拓展了可设计结构的多样性。

    MaSIF(分子表面相互作用指纹) 则采用了一种更“视觉化”的策略。它不再从全局结构入手,而是分析蛋白质分子表面的化学和几何特征,寻找可能发生相互作用的“指纹区”。一旦在靶点蛋白上找到这样的区域,MaSIF就可以搜索或设计一个与之互补的分子表面,从而实现精准对接。这种方法特别适用于那些缺乏明确活性位点、难以用传统方法处理的靶标。成功设计出了结合 SARS-CoV-2 spike 蛋白和 PD-L1 的 binder。

0

0

    RFdiffusion + ProteinMPNN 组合是当前流行的“工作流”。RFdiffusion是一个基于扩散模型的骨架生成器,它像一位建筑师,勾勒出蛋白质的整体三维形态;而ProteinMPNN则扮演室内设计师的角色,为这个骨架分配合适的氨基酸序列,确保其能够稳定折叠并实现功能。最后,AlphaFold2被用来评估设计结果的质量 (pLDDT、pTM等),预测其与靶点的结合模式。这个流程的成功率之高,使得许多研究者仅需筛选几十个设计分子,就能获得可用的结合剂。

    最新出现的 BindCraft 代表了下一次飞跃,在前几日也正式见刊Nature——它在一开始就将Target与Binder“共折叠”,实时模拟两者的相互作用过程。这种动态设计策略能够更好地处理蛋白质接触界面的柔性构象变化,在一些困难靶点上实现了10-100%的成功率,堪称“一步到位的精准设计”。

0


04

Bench to Bedside:AI设计蛋白的多元应用版图

    如果我们把AI蛋白质设计看作一把新的手术刀,那么它的应用场景正在迅速扩展到生物医学的各个角落。

对抗毒素:人工抗毒血清的新策略

    蛇毒毒素长期以来是抗血清治疗的难点,传统方法需要免疫动物、提取抗体,过程繁琐且成本高昂。现在,Baker Lab使用RFdiffusion针对蛇毒中的α-神经毒素和细胞毒素,设计出了一系列小型结合蛋白。这些分子不仅热稳定性极好(有些Tm值超过95°C),亲和力达到纳摩尔甚至皮摩尔级别,更令人惊叹的是——在动物模型中,即使是在中毒后15分钟给药,也能实现100%的存活率。这可能是未来抗毒疗法的新范式:无需动物免疫,完全在计算机上设计,快速响应新出现的毒素变种。

0

“不过值得注意的是,Baker Lab并没有直接设计蛇毒血清抗体,而是de novo设计了一些mini binder蛋白。一方面可能因为抗体的设计难度更高,另一方面这些mini binder相对更稳定,更容易大规模生产”

免疫系统的精准调控

    免疫系统的高度复杂性使得药物开发常常面临“按下葫芦浮起瓢”的困境。例如,传统的TNF-α抑制剂同时阻断TNFR1和TNFR2,而后者其实具有抗炎功能。通过AI设计,研究者成功获得了只靶向TNFR1的拮抗剂,有效避免了这一副作用。更巧妙的是,通过“Partial Diffusion”的优化策略,同样的设计流程稍加调整,就得到了针对OX40和4-1BB的激动剂,这些分子能够激活T细胞,增强抗肿瘤免疫反应。这些设计不仅活性优于天然配体,还具有小尺寸、高稳定性、潜在口服可利用性等优势,为免疫疗法提供了新的Toolbox。

Image

新兴前沿:从基因编辑到抗菌耐药

    AI设计蛋白的应用正在向更多新兴领域拓展。例如,针对CRISPR-Cas系统设计的抗CRISPR蛋白(Alcrs),为基因编辑提供了“刹车系统”,实现了更精确的时空调控;针对耐药菌的血红素摄取系统设计的抗菌蛋白,为应对全球抗菌耐药挑战提供了新思路;甚至针对传统上认为“不可成药”的固有无序蛋白区域(IDP),AI也设计出了高亲和力的结合剂。这些应用共同描绘了一个未来:蛋白质药物不再局限于少数靶点,而是可以针对各种生物过程进行定制化设计。

图片


05

Challenges:技术瓶颈与局限

    正如所有Review文章的经典套路,作者也提出了不少AI蛋白质设计面临的潜在挑战。

    技术门槛与资源分配 是一个现实门槛。高效运行BindCraft、RFdiffusion等模型需要大量的GPU算力,而这不是所有非计算Lab和小型企业能承担的。同时,成功的设计还需要对靶标蛋白的结构生物学有深入理解,这要求团队同时具备计算和实验两方面的 expertise。

    预测与实验之间的Gap 当前使用的pLDDT、pAE_interaction等指标虽然与实验成功率有较好相关性,但仍远非完美。一些在计算机上预测良好的设计,表达后可能不折叠、不溶解或不结合。解决这一问题需要更多高质量的实验数据反馈到训练过程中,像Protein Design Archive这样的开放数据库正在为此提供支持。

    靶点范围的局限性 也是当前模型的瓶颈。大多数成功案例仍然集中在相对刚性、表面暴露的靶点上,而对于高度动态的膜蛋白、糖基化蛋白或蛋白质-核酸复合物,设计成功率仍然较低。扩展可设计靶点的范围,需要算法能够更好地处理柔性、界面水和化学修饰等因素。


06

"Code to Complex"——迈向Binder设计新纪元

    “Code to Complex”——“从代码到复合物”一语双关,Code的既是计算机代码,也是蛋白序列的“生命代码”。这个简洁的标题捕捉了这场变革的本质:我们正在从读写遗传密码,走向编写生命的功能模块。

    这篇Review向我们展示的,不仅仅是一系列技术的进步,更是一个新范式的诞生:蛋白质设计正在从一门艺术转变为一门工程学科;从依赖直觉和经验,转向基于数据和算法;从只能模仿自然,到开始超越自然。

    未来的蛋白质设计,将更加精准、通用、可及。也许不久的将来,设计一个针对新出现病原体的Binder蛋白,就会像今天设计一个网页一样简单——填写靶点信息,选择设计参数,点击“生成”按钮。

    到那时,我们或许会真正实现Richard Feynman那句名言:“What I cannot create, I do not understand”  而AI,正在让我们获得这种创造的能力——不仅理解生命,更能够设计生命。

图片

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐