ESMFold2:语言建模构建蛋白世界模型
Candido 等人的这篇论文向世界宣告:蛋白质语言模型已经跨越了“统计拟合”的阶段,它在硅基世界里真正物质化(Materialize)了蛋白质生物学的基本物理和演化规律。这种通用、原子级精准且具备生命尺度演化视野的“世界模型”,不仅将虚拟数字实验的效率提升了数万倍,更深刻地证明了 AI 在没有人类先验知识的干预下,能够完全独立地重构并拓展人类数百年建立起来的经验生物学大厦。
《Language Modeling Materializes a World Model of Protein Biology》(语言建模具体化了蛋白质生物学的世界模型),展示了蛋白质语言模型(PLM)从早期的“序列统计工具”演变为内化蛋白质物理与生物学规律的“世界模型”的完整历程。
一、 核心科学结论:语言建模即“世界模型”
论文的核心论点在于:对蛋白质序列进行无监督的掩码语言建模(Masked Language Modeling, MLM),其本质不仅仅是文字概率填空,而是让模型在潜空间(Latent Space)中构建了一个蛋白质生物学的“世界模型”。
- 涌现的必然性:蛋白质在漫长的进化中,其氨基酸的选择受到严格的物理、化学、三维结构和功能约束。模型为了在训练中准确预测被掩码(Mask)的氨基酸,必须“被迫”学习并理解这些底层约束。因此,结构、物理化学性质和生物学功能完全在无监督的情况下自发涌现。
二、 技术与模型创新:ESMC 与 ESMFold2
论文围绕这一世界模型,在“语言模型”、“结构预测”和“计算规模”三个维度进行了升级:
1. ESMC (ESM Cambrian) 语言模型与全新标度律(Scaling Law)
-
数据破局:前代模型 ESM2 在 6.5 亿到 150 亿参数之间出现了边际效应递减,主因是训练集(UniRef50,约 5000 万序列)的数据红利耗尽。ESMC 引入了庞大的宏基因组(Metagenomic)序列,将训练集扩大近两个数量级,达到 28.1 亿条序列。
-
完美的对数线性标度律:在数据充足后,模型展现出极佳的扩展性。随着计算量(FLOPs)和参数量(3亿、6亿、60亿)的提升,模型表征进化三维接触位点(Contact Precision)的准确度呈现出完美的对数线性增长。
-
层级的解耦:在 ESMC 6B 模型中,不同层学习到的知识具有明确的梯度:50-60层对酶功能(EC分类)的表征达到顶峰;而更靠后的最后几层(如倒数第二层)才对远程三维空间接触(结构)的表征达到顶峰。这表明功能表征和结构表征在潜空间中具有一定的解耦性,甚至可以在几乎正交的轴上运作。

语言模型规模扩大催生并优化蛋白质结构与功能的隐层表征。A) ESMC 隐空间表征。氨基酸离散序列(词元)被映射为高维向量;60 亿参数版 ESMC 模型每个氨基酸对应2560 维向量。表征经由多层自注意力与前馈网络模块逐层处理。模型最后一层对每个位置做投影,输出该位置所有氨基酸类别未归一化对数概率。训练阶段会对序列中部分氨基酸进行掩码遮挡,让模型预测被掩盖的氨基酸。神经网络每一层的激活值,共同构成蛋白质的隐层表征。
B) 长程接触预测精度随训练计算量(浮点运算量 FLOPs)的变化。模型表征空间中三级结构的涌现程度,与训练计算量呈对数线性关系。大规模训练结果(绿色)与小规模实验拟合的趋势虚线高度吻合。
C) ESM2 与 ESMC 模型的接触预测精度随模型参数量的变化。ESMC 模型性能随参数量增大呈对数线性持续提升,无性能平台期。
D) ESMC-6B 模型不同层级分别编码结构与功能信息。基于 k 近邻分类的功能表征精度在第 50–60 层达到峰值;蛋白质三级结构的预测精度则在网络最后几层达到最高。
2. ESMFold2:高效的高精度结构预测
-
摆脱 MSA 依赖:与 AlphaFold3 等依赖多序列比对(MSA)作为核心输入的模型不同,ESMFold2 将 ESMC 语言模型的全层表征作为主要输入,能够直接从单条序列(Single-Sequence)预测出全原子分辨率的复合物结构。
-
架构优化与循环迭代(Looped Architecture):去除了传统 pair 状态处理中昂贵的注意力机制,简化为“三角形乘法(Triangle Multiplication)+ 前馈网络(FFN)”。引入了收缩映射(Contractive Map)来稳定循环更新,使得模型在推理时可以进行多达 20 次以上的反复循环迭代,大大提升了抗体-抗原等困难复合物的预测精度。
-
性能与速度的帕累托前沿(Pareto Frontier):
-
精度:在单序列模式下,抗体-抗原复合物预测的 DockQ 通过率达到 50%,超越了 AlphaFold3 在使用 MSA 状态下的表现 (47%);若加上 MSA,精度进一步飙升至 53%~55%。
-
速度:轻量化的
ESMFold2-Fast在 H100 GPU 上预测一个 1024 残基的结构仅需 9.4 秒,比 AlphaFold3 快得多,极其适合千万级药物分子的超高通量筛选。

基于 ESMC 表征实现高精度蛋白质相互作用预测。A) ESMFold2 架构示意图。将冻结版 60 亿参数 ESMC 模型所有网络层的表征进行聚合融合,映射为二维成对表征,并通过 4 层编码器做精细化优化。成对状态经由48 层折叠层迭代更新(轻量化 ESMFold2-Fast 仅使用 24 层),采用稳定循环更新机制,可支持循环结构内的反向传播。最后两层折叠层为滑动窗口原子注意力扩散 Transformer提供条件约束,经由去噪过程输出蛋白质原子坐标。
B) 结构预测性能随语言模型训练算力的缩放规律。基于不同训练浮点运算量(FLOPs)下的3 亿、6 亿、600 亿参数 ESMC 模型中间表征,训练蛋白质结构预测模型。
C) 在 FoldBench 抗体 - 抗原、蛋白 - 蛋白及 Runs N’Poses 基准上的性能。基线模型均采用与 ESMFold2 完全相同的评估流程进行本地测试。基线模型使用 10 次循环迭代、200 步扩散采样;ESMFold2 采用 10 次与 20 次循环,使用截断扩散策略、仅 68 步扩散采样。
D) 抗体 - 抗原、蛋白 - 蛋白折叠的推理算力缩放表现。模型共设置 1024 个随机种子,每个种子生成 5 个扩散样本;通过 iPTM 分值对样本排序,筛选每个靶点的最优预测并打分。
E) 推理延迟与蛋白序列长度关系。所有推理耗时均在单张 H100 GPU 上、统一循环 / 扩散配置下测得,不包含多序列比对构建耗时。虚线为 20 次循环设置下的 ESMFold2 推理延迟。
F) FoldBench 抗体 + 蛋白基准综合的精度 - 吞吐量帕累托最优前沿。吞吐量为序列长度 128~1024 的平均值。
三、 工业与应用突破:精准设计高亲和力治疗性蛋白
利用“世界模型”的生成先验 p(x)p(x)p(x) 与结构预测模型 p(s∣x,t)p(s|x,t)p(s∣x,t) 结合,团队开发了一种极其简单的输入空间搜索算法(通过反向传播和温度退火优化连续氨基酸分布),在实验室中取得了惊人的成功率:
-
高难度靶点验证:针对 PDGFRB、EGFR、PD-L1、CD45 和 CTLA-4 这五个极具临床价值的肿瘤与免疫靶点,成功设计了全新微型蛋白(de novo minibinders)和抗体衍生单链抗体(scFvs)。
-
推理计算换取实验成功率(Inference-time Scaling):研究发现,简单地增加计算筛选的候选体数量和评审模型(Critics)的组合规模,就能直接转化为更高的实验成功率。在最高计算预算下,微型蛋白的实验室 BLI 结合成功率高达 36%~88%,scFvs 的成功率也达到了 15%~29%。
-
优异的生物物理特性:
-
设计出的分子展现出低纳摩尔(nM)至皮摩尔(pM,最低达 68 pM)的超强亲和力。
-
高特异性:完美区分同源性极高的近亲靶点(如只结合 EGFR 而不结合 HER3)。
-
生物学功能:设计的 PD-L1 微型蛋白和抗体在细胞功能实验中成功阻断了 PD-1/PD-L1 通路,重激活了 T 细胞信号,展现出与商业化临床抗体(阿替利珠单抗,Atezolizumab)相当或更优的治疗潜力(IC50 分别为 1.6 nM 和 39 nM)。
-
团队甚至通过 Cryo-EM(冷冻电镜) 解析了 EGFR-微型蛋白复合物的晶体结构,分辨率达 3.8 Å,其实际结合构象与模型的计算预测结构惊人一致(RMSD 仅 1.204 Å)。
四、 科学阐释:机械可解释性(Sparse Autoencoders, SAE)
这是本篇论文最具学术深度和启发性的部分。由于神经网络的隐藏层高度聚义(Polysemantic,一个维度参与多种特征),团队引入了大语言模型(LLM)领域的机制可解释性工具——稀疏自编码器(SAE),成功将潜空间分解为了 16,384 个单义性特征(Monosemantic Features)。
通过人工智能 Agent 对 SwissProt 数据库中 19.5 万蛋白质特征点的自动化分析,他们发现模型的潜空间自发对蛋白质生物学进行了还原论(Reductionist)式的层次化拆解:
-
一级序列与二级结构:分化出了特定的特征专门识别色氨酸、半胱氨酸等,以及特定的“螺旋末端帽(Helix End-caps)”或“β折叠边缘”的几何特征。
-
三级结构与局部生化环境:涌现出了 helix 紧密堆积、二硫键错位、疏水核以及酸性斑块(Acidic Patches)等物理特征。
-
趋同进化的本质识别:最令人惊叹的是,像亲核末端/氧阴离子空穴(Nucleophilic Elbow)这种在生物界中通过完全不同的进化轨迹、在不同折叠流派中反复出现的催化基团,在模型潜空间中被收敛对应为了同一个单一的特征(Feature 6716)。
-
复杂功能的乐高式组合(Compositionality):以激酶(Kinase)为例,模型通过组合“通用柔性环特征” + “磷酸盐结合特征” + “激酶特异性 P-loop 特征(Feature 119)”来表征复杂的催化机器。甚至单点突变对激酶活性的破坏程度,与该特征激活值的下降程度高度正相关。
五、 宏大愿景:生命尺度的蛋白质结构与功能图谱
最后,基于 ESMC 强大的普适表征能力,团队对来自全球 8 个核心公共数据库(包含大量动植物肠道、海洋、土壤等宏基因组 biome)的 68 亿条独特蛋白质序列 进行了 SAE 表征聚类,并用 ESMFold2 预测了其中的 11 亿条代表性结构。
-
巨大的数据互补:该图谱比现有的 AlphaFold DB 和一代 ESM Atlas 极大地扩展了未知生物圈的版图,其中包含了 7.56 亿个此前从未被结构数据库覆盖的全新蛋白质簇。
-
跨越进化的黑暗物质:该空间不仅能通过特征距离极其敏锐地捕捉远源同源性(在序列一致性低于 40% 甚至只有 10%~20% 时,依旧能准确将功能相似的分子归类),还揭示了大量完全没有 Pfam 家族注释的“暗物质”蛋白质。例如,成功在大量完全未知的宏基因组蛋白中识别出了与 CRISPR-Cas12/TnpB/Fanzor 系统共享高度相似催化特征和空间折叠的潜在基因编辑工具。
总结
Candido 等人的这篇论文向世界宣告:蛋白质语言模型已经跨越了“统计拟合”的阶段,它在硅基世界里真正物质化(Materialize)了蛋白质生物学的基本物理和演化规律。这种通用、原子级精准且具备生命尺度演化视野的“世界模型”,不仅将虚拟数字实验的效率提升了数万倍,更深刻地证明了 AI 在没有人类先验知识的干预下,能够完全独立地重构并拓展人类数百年建立起来的经验生物学大厦。
更多推荐

所有评论(0)