ESMFold2：语言建模构建蛋白世界模型

Candido 等人的这篇论文向世界宣告：蛋白质语言模型已经跨越了“统计拟合”的阶段，它在硅基世界里真正物质化（Materialize）了蛋白质生物学的基本物理和演化规律。这种通用、原子级精准且具备生命尺度演化视野的“世界模型”，不仅将虚拟数字实验的效率提升了数万倍，更深刻地证明了 AI 在没有人类先验知识的干预下，能够完全独立地重构并拓展人类数百年建立起来的经验生物学大厦。

tzc_fly

14人浏览 · 2026-05-28 13:51:38

tzc_fly · 2026-05-28 13:51:38 发布

《Language Modeling Materializes a World Model of Protein Biology》（语言建模具体化了蛋白质生物学的世界模型），展示了蛋白质语言模型（PLM）从早期的“序列统计工具”演变为内化蛋白质物理与生物学规律的“世界模型”的完整历程。

一、核心科学结论：语言建模即“世界模型”

论文的核心论点在于：对蛋白质序列进行无监督的掩码语言建模（Masked Language Modeling, MLM），其本质不仅仅是文字概率填空，而是让模型在潜空间（Latent Space）中构建了一个蛋白质生物学的“世界模型”。

涌现的必然性：蛋白质在漫长的进化中，其氨基酸的选择受到严格的物理、化学、三维结构和功能约束。模型为了在训练中准确预测被掩码（Mask）的氨基酸，必须“被迫”学习并理解这些底层约束。因此，结构、物理化学性质和生物学功能完全在无监督的情况下自发涌现。

二、技术与模型创新：ESMC 与 ESMFold2

论文围绕这一世界模型，在“语言模型”、“结构预测”和“计算规模”三个维度进行了升级：

1. ESMC (ESM Cambrian) 语言模型与全新标度律（Scaling Law）

数据破局：前代模型 ESM2 在 6.5 亿到 150 亿参数之间出现了边际效应递减，主因是训练集（UniRef50，约 5000 万序列）的数据红利耗尽。ESMC 引入了庞大的宏基因组（Metagenomic）序列，将训练集扩大近两个数量级，达到 28.1 亿条序列。
完美的对数线性标度律：在数据充足后，模型展现出极佳的扩展性。随着计算量（FLOPs）和参数量（3亿、6亿、60亿）的提升，模型表征进化三维接触位点（Contact Precision）的准确度呈现出完美的对数线性增长。
层级的解耦：在 ESMC 6B 模型中，不同层学习到的知识具有明确的梯度：50-60层对酶功能（EC分类）的表征达到顶峰；而更靠后的最后几层（如倒数第二层）才对远程三维空间接触（结构）的表征达到顶峰。这表明功能表征和结构表征在潜空间中具有一定的解耦性，甚至可以在几乎正交的轴上运作。

fig1

语言模型规模扩大催生并优化蛋白质结构与功能的隐层表征。A) ESMC 隐空间表征。氨基酸离散序列（词元）被映射为高维向量；60 亿参数版 ESMC 模型每个氨基酸对应2560 维向量。表征经由多层自注意力与前馈网络模块逐层处理。模型最后一层对每个位置做投影，输出该位置所有氨基酸类别未归一化对数概率。训练阶段会对序列中部分氨基酸进行掩码遮挡，让模型预测被掩盖的氨基酸。神经网络每一层的激活值，共同构成蛋白质的隐层表征。
B) 长程接触预测精度随训练计算量（浮点运算量 FLOPs）的变化。模型表征空间中三级结构的涌现程度，与训练计算量呈对数线性关系。大规模训练结果（绿色）与小规模实验拟合的趋势虚线高度吻合。
C) ESM2 与 ESMC 模型的接触预测精度随模型参数量的变化。ESMC 模型性能随参数量增大呈对数线性持续提升，无性能平台期。
D) ESMC-6B 模型不同层级分别编码结构与功能信息。基于 k 近邻分类的功能表征精度在第 50–60 层达到峰值；蛋白质三级结构的预测精度则在网络最后几层达到最高。

2. ESMFold2：高效的高精度结构预测

摆脱 MSA 依赖：与 AlphaFold3 等依赖多序列比对（MSA）作为核心输入的模型不同，ESMFold2 将 ESMC 语言模型的全层表征作为主要输入，能够直接从单条序列（Single-Sequence）预测出全原子分辨率的复合物结构。
架构优化与循环迭代（Looped Architecture）：去除了传统 pair 状态处理中昂贵的注意力机制，简化为“三角形乘法（Triangle Multiplication）+ 前馈网络（FFN）”。引入了收缩映射（Contractive Map）来稳定循环更新，使得模型在推理时可以进行多达 20 次以上的反复循环迭代，大大提升了抗体-抗原等困难复合物的预测精度。
性能与速度的帕累托前沿（Pareto Frontier）：
精度：在单序列模式下，抗体-抗原复合物预测的 DockQ 通过率达到 50%，超越了 AlphaFold3 在使用 MSA 状态下的表现 (47%)；若加上 MSA，精度进一步飙升至 53%~55%。
速度：轻量化的 ESMFold2-Fast 在 H100 GPU 上预测一个 1024 残基的结构仅需 9.4 秒，比 AlphaFold3 快得多，极其适合千万级药物分子的超高通量筛选。

fig2

基于 ESMC 表征实现高精度蛋白质相互作用预测。A) ESMFold2 架构示意图。将冻结版 60 亿参数 ESMC 模型所有网络层的表征进行聚合融合，映射为二维成对表征，并通过 4 层编码器做精细化优化。成对状态经由48 层折叠层迭代更新（轻量化 ESMFold2-Fast 仅使用 24 层），采用稳定循环更新机制，可支持循环结构内的反向传播。最后两层折叠层为滑动窗口原子注意力扩散 Transformer提供条件约束，经由去噪过程输出蛋白质原子坐标。
B) 结构预测性能随语言模型训练算力的缩放规律。基于不同训练浮点运算量（FLOPs）下的3 亿、6 亿、600 亿参数 ESMC 模型中间表征，训练蛋白质结构预测模型。
C) 在 FoldBench 抗体 - 抗原、蛋白 - 蛋白及 Runs N’Poses 基准上的性能。基线模型均采用与 ESMFold2 完全相同的评估流程进行本地测试。基线模型使用 10 次循环迭代、200 步扩散采样；ESMFold2 采用 10 次与 20 次循环，使用截断扩散策略、仅 68 步扩散采样。
D) 抗体 - 抗原、蛋白 - 蛋白折叠的推理算力缩放表现。模型共设置 1024 个随机种子，每个种子生成 5 个扩散样本；通过 iPTM 分值对样本排序，筛选每个靶点的最优预测并打分。
E) 推理延迟与蛋白序列长度关系。所有推理耗时均在单张 H100 GPU 上、统一循环 / 扩散配置下测得，不包含多序列比对构建耗时。虚线为 20 次循环设置下的 ESMFold2 推理延迟。
F) FoldBench 抗体 + 蛋白基准综合的精度 - 吞吐量帕累托最优前沿。吞吐量为序列长度 128~1024 的平均值。

三、工业与应用突破：精准设计高亲和力治疗性蛋白

利用“世界模型”的生成先验 $p (x)$ 与结构预测模型 $p (s ∣ x, t)$ 结合，团队开发了一种极其简单的输入空间搜索算法（通过反向传播和温度退火优化连续氨基酸分布），在实验室中取得了惊人的成功率：

高难度靶点验证：针对 PDGFRB、EGFR、PD-L1、CD45 和 CTLA-4 这五个极具临床价值的肿瘤与免疫靶点，成功设计了全新微型蛋白（de novo minibinders）和抗体衍生单链抗体（scFvs）。
推理计算换取实验成功率（Inference-time Scaling）：研究发现，简单地增加计算筛选的候选体数量和评审模型（Critics）的组合规模，就能直接转化为更高的实验成功率。在最高计算预算下，微型蛋白的实验室 BLI 结合成功率高达 36%~88%，scFvs 的成功率也达到了 15%~29%。
优异的生物物理特性：
设计出的分子展现出低纳摩尔（nM）至皮摩尔（pM，最低达 68 pM）的超强亲和力。
高特异性：完美区分同源性极高的近亲靶点（如只结合 EGFR 而不结合 HER3）。
生物学功能：设计的 PD-L1 微型蛋白和抗体在细胞功能实验中成功阻断了 PD-1/PD-L1 通路，重激活了 T 细胞信号，展现出与商业化临床抗体（阿替利珠单抗，Atezolizumab）相当或更优的治疗潜力（IC50 分别为 1.6 nM 和 39 nM）。
团队甚至通过 Cryo-EM（冷冻电镜） 解析了 EGFR-微型蛋白复合物的晶体结构，分辨率达 3.8 Å，其实际结合构象与模型的计算预测结构惊人一致（RMSD 仅 1.204 Å）。

四、科学阐释：机械可解释性（Sparse Autoencoders, SAE）

这是本篇论文最具学术深度和启发性的部分。由于神经网络的隐藏层高度聚义（Polysemantic，一个维度参与多种特征），团队引入了大语言模型（LLM）领域的机制可解释性工具——稀疏自编码器（SAE），成功将潜空间分解为了 16,384 个单义性特征（Monosemantic Features）。

通过人工智能 Agent 对 SwissProt 数据库中 19.5 万蛋白质特征点的自动化分析，他们发现模型的潜空间自发对蛋白质生物学进行了还原论（Reductionist）式的层次化拆解：

一级序列与二级结构：分化出了特定的特征专门识别色氨酸、半胱氨酸等，以及特定的“螺旋末端帽（Helix End-caps）”或“β折叠边缘”的几何特征。
三级结构与局部生化环境：涌现出了 helix 紧密堆积、二硫键错位、疏水核以及酸性斑块（Acidic Patches）等物理特征。
趋同进化的本质识别：最令人惊叹的是，像亲核末端/氧阴离子空穴（Nucleophilic Elbow）这种在生物界中通过完全不同的进化轨迹、在不同折叠流派中反复出现的催化基团，在模型潜空间中被收敛对应为了同一个单一的特征（Feature 6716）。
复杂功能的乐高式组合（Compositionality）：以激酶（Kinase）为例，模型通过组合“通用柔性环特征” + “磷酸盐结合特征” + “激酶特异性 P-loop 特征（Feature 119）”来表征复杂的催化机器。甚至单点突变对激酶活性的破坏程度，与该特征激活值的下降程度高度正相关。

五、宏大愿景：生命尺度的蛋白质结构与功能图谱

最后，基于 ESMC 强大的普适表征能力，团队对来自全球 8 个核心公共数据库（包含大量动植物肠道、海洋、土壤等宏基因组 biome）的 68 亿条独特蛋白质序列 进行了 SAE 表征聚类，并用 ESMFold2 预测了其中的 11 亿条代表性结构。

巨大的数据互补：该图谱比现有的 AlphaFold DB 和一代 ESM Atlas 极大地扩展了未知生物圈的版图，其中包含了 7.56 亿个此前从未被结构数据库覆盖的全新蛋白质簇。
跨越进化的黑暗物质：该空间不仅能通过特征距离极其敏锐地捕捉远源同源性（在序列一致性低于 40% 甚至只有 10%~20% 时，依旧能准确将功能相似的分子归类），还揭示了大量完全没有 Pfam 家族注释的“暗物质”蛋白质。例如，成功在大量完全未知的宏基因组蛋白中识别出了与 CRISPR-Cas12/TnpB/Fanzor 系统共享高度相似催化特征和空间折叠的潜在基因编辑工具。

总结

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026年Codex安装教程和使用攻略：零基础使用版

2048 AI社区

几百G学习资料存哪里？5种高性价比存储方案对比，省钱又省心

1. 结合自身需求选择适配的存储工具，百度网盘空间充足、AI功能丰富、适配资源广，适合作为海量学习资料的核心存储工具；2. 可结合固态硬盘、微云、阿里云盘搭配使用，覆盖线上线下、轻重文件的全场景存储需求，提升资料留存的稳定性与便捷性。对于技术学习、AI进阶的同学来说，学习资料是最珍贵的积累，选对存储方式，既能避免反复找资源、重新下载的无效内耗，又能省下一笔长期存储开销。以上都是我长期整理AI学习资

2048 AI社区

第五篇：PREEMPT_RT 是什么？什么时候并入内核主线

是一个对标准 Linux 内核进行深度“基因重构”的补丁（现为主线特性），其唯一目标是将 Linux 从一个“最大化吞吐量”的通用操作系统（GPOS），改造为“最坏情况延迟可预期”的硬实时操作系统（RTOS）。特别是自 Linux 6.12 内核正式将其完全合并入主线（Mainline）后，它彻底从一个“不务正业的外部补丁集”变成了内核原生的一等公民（通过。在 Linux 实时化的漫长岁月中，曾涌