AI赋能下的蛋白设计:RFdiffusion vs. BindCraft,谁是下一代研发利器?
SciMiner 平台上对比 RFDiffusion 与 BindCraft 在 PD-L1 结合体设计中的表现与优劣。
I. 蛋白设计:从预测到生成的范式革命
自 AlphaFold2(AF2)在 2021 年解决了“蛋白结构预测”这一困扰生物学界半个世纪的挑战后,科研焦点迅速转向更具创造性的领域:蛋白从头设计(De Novo Protein Design)。我们不再满足于预测自然界已有的结构,而是渴望利用计算的力量,设计出自然界中不存在的、具有特定功能的蛋白分子。特别是在生物治疗领域,设计特定靶点的高亲和力蛋白结合物(Binders),是开发新型抗体、疫苗和诊断工具的关键。
在这个新纪元中,两个基于深度学习的计算框架脱颖而出,代表了两种截然不同的设计哲学:基于扩散模型的 RFdiffusion (RoseTTAFold Diffusion) 和基于 AlphaFold2 几何先验的 BindCraft。本文将深入剖析它们的技术内核、比较它们的应用生态位,并通过两个对照的计算案例,评估它们在设计功能性结合物时的实际性能。
II. 技术内核:扩散模型的广度与AF2的界面精度
1. RFdiffusion:生成骨架的艺术与广阔的探索空间
核心机制:RFdiffusion 是蛋白设计领域第一个将生成扩散模型(Generative Diffusion Model)成功应用于 3D 结构生成的框架。它的工作原理类似于图像生成 AI(如 Stable Diffusion),从完全随机的 3D 坐标点(噪声)开始,通过学习逆转扩散过程,逐步向用户定义的条件(如肽链长度、对称性、或与靶点的结合)收敛,最终生成一个完整、物理上合理的蛋白骨架。
设计哲学:RFdiffusion 最大的优势在于其拓扑创新性和结构广度。它能够探索比传统基于 Rosetta 的方法更广泛、更具创造性的构象空间,生成在自然界 PDB 数据库中缺乏先例的全新骨架结构。然而,这种设计是分阶段的:首先生成骨架(Cα原子坐标),随后需要借助 ProteinMPNN 等工具将该3D结构骨架“反向折叠”,得到氨基酸序列。这一“骨架生成—序列设计分离”的范式有助于扩展探索空间,但也意味着结构与序列的兼容性需要更依赖后续的 AF3 / Chai-1 / Rosetta 验证,从而增加筛选步骤。

2. BindCraft:高置信度界面的精准构建
核心机制:它利用的是冻结参数的 AlphaFold2-Multimer。它的核心机制是“幻觉”(Hallucination)技术,即:固定模型权重,将输入的氨基酸序列初始化为随机值(Softmax Logits),然后计算输出的 Loss(如结合界面质量),通过反向传播(Backpropagation)更新输入的序列,直到 AF2 预测出高置信度的结合复合物。这与 RFdiffusion(通过去噪扩散重新训练的模型)或 Chroma 截然不同。
设计哲学:BindCraft 的目标是功能效率和高成功率。它特别擅长生成尺寸适中、稳定的迷你结合物(Mini Binders),并通过“以终为始”的策略:优化复合物预测置信度(尤其是 iPAE),以最大化界面几何兼容性。论文报告中显示在若干特定体系其设计的结合物在湿实验中取得了极高的成功率(可达 10% - 100%)。

III. 应用生态位与优劣势对比
RFdiffusion 和 BindCraft 在实际应用中各有侧重,共同推动了计算蛋白设计的前沿。

IV. 同一 PD-L1 靶点下的对照实验
我们在 SciMiner 平台上,构建了一个 同靶点、同参数约束、同大分子体系 的对照计算实验。两条路线分别为:
● 路线A:BindCraft 端到端设计
● 路线B:RFdiffusion(下文简称RF) + ProteinMPNN + AlphaFold3 + Rosetta InterfaceAnalyzer 的多步 Pipeline
1. 实验设定:统一的靶点与设计约束
● 靶点选择:PD-L1
● 结合热点(hotspot):A 链残基 A39(在 PDB 中对应 A56),位于 PD-L1 的功能性界面,作为 binder 设计的“锚点”。
● binder 设计空间(两条路线保持一致):
-
目标链:A 链
-
设计长度:65–150 aa
-
设计目标:生成一条全新的 binder 链,与 PD-L1 形成稳定、紧密的结合界面。
● 评估方式:对所有最终复合物使用 Rosetta InterfaceAnalyzer,比较以下 5 个界面指标(↓越低越好,↑越高越好):
-
interface_dG(结合自由能↓)
-
interface_dSASA(界面埋面积↑)
-
interface_sc(形状互补性↑)
-
interface_interface_hbonds(跨界面氢键数↑)
-
interface_delta_unsat_hbonds_percentage(未满足氢键,即裸露的氢键供体或受体比例↓)
2. 路线 A:BindCraft——端到端的整合

输入参数界面图
在 BindCraft 中,我们以 PD-L1 结构与 hotspot 信息为输入(参数设置如界面截图所示),采用默认的多阶段设计与 MPNN 联合优化策略,由于比较耗时,我们同时运行了 2 个任务,每个任务设置输出 2 条候选,共得到 4 条 binder 结构。
3. 路线 B:RFdiffusion + ProteinMPNN + AF3 分步设计
Step 1:RFdiffusion 生成骨架:一次性生成 10 个不同的 binder 骨架

Step 2:ProteinMPNN 进行序列设计:针对每个骨架设计 5 条序列,并从中挑选置信度最高的进入下一步。

Step 3:AlphaFold3 结构预测:挑选置信度最高的复合物结构用于 Rosetta 评估。

4. 结果比较
使用Rosetta InterfaceAnalyzer 对上述结构统一进行界面指标分析。
BinderCraft结果如下(↓更低更好,↑更高更好):

RFdiffusion结果如下(↓更低更好,↑更高更好):

从两张表中可以直观看到:
-
BindCraft 输出的 4 个设计在 dG、dSASA 与形状互补(sc)上表现十分接近,界面氢键数多、未满足氢键(裸露的氢键供体或受体)比例较低,整体质量高且均衡。
-
在RFdiffusion路线中,能量最优的样本(如design4)虽在dG和dSASA上表现较好,优于BindCraft的设计结果,但界面氢键数与未满足氢键比例均不理想,不及BindCraft的设计结果;而界面氢键数目最多的样本(design1),虽与BindCraft设计的最优样本相当,但其dG和形状互补(sc)表现仍不如BindCraft的设计样本。
5. 小结:极值探索 vs 平均质量与工程效率
仅针对本次结果来看:
-
RFdiffusion + ProteinMPNN + AF3 路线
-
优势在于:依托 RFdiffusion 的广阔结构搜索空间,更容易在 Top hit 中挖到能量极深、界面极大的“狠角色”;
-
劣势在于:整体样本质量起伏较大,未满足氢键比例偏高的情况更常见,需要依赖多轮筛选与后续精修,才能得到工程上可接受的序列与结构。
-
-
BindCraft 路线
-
虽然一次设计耗时非常长,耗时高出了一个数量级,但每一条设计在各个指标上都更均衡;
-
这体现了 AF2 几何先验与界面损失的约束效果,使得输出的 Binder 更接近训练样本分布的平均状态,适合作为高命中率的第一批候选库。
-
V. 结论与未来展望
RFdiffusion 和 BindCraft 的成功,标志着蛋白设计已正式进入由深度学习驱动的时代。它们分别代表了蛋白设计的两大前沿趋势:探索(Diffusion Model)与优化(AF2 Priors)。
未来的蛋白设计工具将极有可能是一个统一的模型:既具备强大生成探索能力,又整合已有先验进行高精度界面优化的统一框架。随着计算生物学与 AI 模型的不断迭代,从头设计功能性蛋白,将不再是大海捞针式的随机筛选,而是基于模型置信度进行的高效、高命中率的定向设计。这不仅将加速生物制药的研发周期,更将开启一个由人工设计蛋白分子定义的新时代。
更多推荐




所有评论(0)