谷歌的 AI 公司再次出击:AlphaFold 3 现在覆盖了更多的结构生物学
原文:towardsdatascience.com/googles-ai-companies-strike-again-alphafold-3-now-spans-even-more-of-structural-biology-67fb8fd14305谷歌的人工智能子公司深度思维和同构实验室在科学界再次掀起波澜……这一次,是通过发布 AlphaFold 3,一个新 AI 模型,它以前所未有的精度预
谷歌的人工智能子公司深度思维和同构实验室在科学界再次掀起波澜……这一次,是通过发布 AlphaFold 3,一个新 AI 模型,它以前所未有的精度预测分子结构,并且不仅限于像成功的(并在生物学上真正具有颠覆性的)AlphaFold 2 那样的蛋白质。实际上,AlphaFold 3 处理蛋白质及其与 DNA、RNA、配体、离子等复合物,承诺再次改变我们对生物学的理解,在这种情况下,它开辟了加速药物发现的新途径。
-
引言
-
对计算机科学家和生物信息学家来说也很丰富
-
改变我们研究生物学、发现药物和推进生物技术的方式
-
几点击即可在线使用 AlphaFold 3
-
光明的未来,但仅限于少数人?
深度思维和同构实验室,这两家谷歌的核心人工智能子公司,又一次让科学界感到困惑。这一次,是通过推出 AlphaFold 3,一个全新的 AI 模型,它继成功的(并在生物学上真正具有革命性的)AlphaFold 2 之后,以更高的精度预测分子结构,并且不仅限于蛋白质。实际上,AlphaFold 3 管理蛋白质及其与配体、离子、DNA、RNA 等相互作用,并有可能再次改变我们对生物学的认识,在这种情况下,它开始提供新的方法来加速新药的开发——实际上威胁到测试药物如何与分子靶标结合的经典方法和软件。
下面是一个指向该论文的链接,并阅读这篇博客文章,以获得对其中涉及主题的更容易的解释,这些主题对计算机科学家、生物信息学家和生物研究人员来说都很有趣;并且不要错过最后部分,反思这次,该模型的代码是封闭的。
对计算机科学家和生物信息学家来说也很丰富
正如 2021 年 7 月发表在《自然》杂志上的论文中介绍的AlphaFold 2一样,这篇关于 AlphaFold 3 的新论文不仅对生物学家来说是一个“奇迹”,对应用人工智能技术于其工作的计算机科学家、人工智能研究人员和生物信息学家来说也是如此。确实,这篇论文展示了一个具有增强的 Evoformer 模块和扩散网络的先进架构,这些在领域内并非完全创新,但确实处于前沿,而且还有一些新的改进。
让我们逐一介绍这些新的和改进的元素。
首先,AlphaFold 3 修改了从 AlphaFold 2 的架构,以更有效地处理更广泛的化学结构,减少了特殊解决方案的需求。它能够读取蛋白质序列,就像 AlphaFold 2 一样,还能读取核酸序列(即 DNA 或 RNA 碱基)、一些小分子和一些离子。特别是后者,需要特殊的方式来处理(与蛋白质和核酸不同,它们可以通过其序列简单地描述)。这本质上需要一个不同的架构和甚至不同的标记化方式,正如我在 Deepmind 和一个学术实验室发布博客文章时已经提到的,他们即将推出这些模型:
模型架构的变更继续进行,AlphaFold 2 的 Evoformer 现已被 Pairformer 所取代,它通过关注成对表示来简化了多重序列比对的处理。这简化了模型的架构,并允许同时处理所有不同类型的分子输入。
AlphaFold 2 的 Evoformer 负责处理与正在建模的蛋白质相关的多重序列比对。这在所有当前的 AI 结构预测模型中都是关键,AlphaFold 3 也不例外。然而,它的 Pairformer 使用了一个更简单、更小的嵌入块,并且整体块更少,这使得整个运行更快、更流畅(正如你所猜到的,这可能会遗漏信息……有待测试!)。
此外,正如社区中许多人所预期的那样,AlphaFold 3 必须实现扩散模型,以帮助准确定位原子。扩散模型在分子建模中的应用并不完全新颖,但迄今为止主要用于分子设计。AlphaFold 3 则使用这样一个模块直接预测原始原子坐标,这与之前依赖于框架和扭转角的做法不同。这反过来又消除了立体化学损失和特殊键模式处理的需求——但正如论文本身所解释的,它还不是完美的,并产生了扭曲预测分子形状的幻觉,这些形状在明显不可能的方式下结束。因此,AlphaFold 3 在某种程度上更像是一个生成工具。
新的 AlphaFold 的一个有趣之处在于,尽管我们总是承认处理分子的 AI 模型必须对平移和旋转保持不变性,但这一点在版本 3 中被以全新的方式思考。确实,这个新模型不需要对全局旋转和平移保持不变性或等变性,这简化了架构。相反,扩散模型本身被训练以去噪原子坐标,学习蛋白质结构在不同长度尺度上,从局部立体化学到大规模结构,而不关心原子的位置。某种程度上,这就像人类直接观察分子结构时一样:内部自然发生简化,这是由于模型能够直接从原始原子坐标中学习蛋白质结构的能力。
模型的训练程序也得到了改进,特别是为了提高数据效率和使其能够有效地从较小的数据集中学习。这是至关重要的,因为关于离子、小分子和核酸的结构信息比蛋白质数据银行中的蛋白质结构信息要稀少得多,而蛋白质数据银行是生物大分子结构数据的主要来源。此外,为了增加训练集,还使用了 AlphaFold-Multimer 2 预测的置信结构作为额外的训练数据。
最后,像任何优秀的结构预测 AI 模型一样,AlphaFold 3 也预测其预测模型的置信度。自从 AlphaFold 1 时代起,我在 CASP13 期间对其进行了评估,Deepmind 就非常认真地对待了提供不仅仅是 3D 模型,还包括置信度指标的任务。由于 AlphaFold 3 处理的内容不仅仅是蛋白质结构,因此它必须适应生成非蛋白质成分的分数。为此,AlphaFold 3 在训练过程中使用了新的基于扩散“展开”的原子和成对层面的错误预测度量。
改变我们研究生物学、发现药物和推进生物技术的方式
AlphaFold 3 在预测配体和抗体相互作用方面的卓越精度超过了基于物理的工具。这对基础生物学来说是个好消息,对制药和生物技术公司来说也是极好的,因为这个程序为探索与他们直接相关的问题开辟了全新的途径。
例如,我认为这正是所有这些公司都在走向的方向,像 AlphaFold 3(以及即将推出的其他工具,比如我已经讨论过的RoseTTAFold-AllAtoms)在原则上能够以全新的方式运行“分子对接”或“虚拟筛选”程序,正如论文所解释的,比传统替代方案效果更好。这些程序确实可能被像 AlphaFold 3 或 RoseTTAFold-AllAtoms 这样的技术完全淘汰。基本上,这些程序旨在获取小分子和蛋白质的结构,然后找到小分子在蛋白质上的结合位置。但请注意,你需要从结构开始,这从定义上意味着空间中原子分布的特定分布,但这些结构在结合和非结合状态下可能非常不同。
使用新的 AI 方法,用户只需提供蛋白质序列,剩下的任务就是“同时”测试小分子与蛋白质的结合,从而有可能有效地捕捉到结合所需的构象变化。目前这还只是推测,尚未得到证实(尽管我的猜测是公司们已经在尝试这样做),但我的观点是,这项技术至少允许这样做……所以我们可能只是时间问题,直到我们看到这些新的 AI 模型开始有效地取代常规的对接程序。
值得注意的是,Isomorphic Labs 已经宣布,它已经在利用 AlphaFold 3 的能力进行药物设计,独立工作并与制药合作伙伴合作进行创新研究和开发。
几个点击即可使用 AlphaFold 3 在线
DeepMind 推出了 AlphaFold Server,为全球研究社区免费提供 AlphaFold 3 的大部分功能。这个平台是一个变革性的平台,简化了复杂分子结构的建模,并允许生物学家以前所未有的方式探索新的假设和快速发现。确实,在alphafoldserver.com/(当然是用 Google 账户登录)上只需点击几下,你就可以快速输入,比如,一个蛋白质序列和一个配体(可能结合到蛋白质上的小分子),然后几秒钟内就可以建模该复合物的原子结构。例如,这里有一个结合血红素(是的,使血液变红的那种)的蛋白质模型。
这里展示的图片和其他图片都是作者截图的。
正如这个例子所示,就像 AlphaFold 2 一样,这个新版本不仅输出结构,还输出置信度指标。在这种情况下,整个蛋白质和血红素团被自信地预测出来,显示为蓝色。
现在,让我们看看如果要求 AlphaFold 3 对同一蛋白质但使用另一种不结合的配体 ATP 进行建模会发生什么。
现在,我们得到了一种似乎在远离配体结合位点(更深蓝色)的部分自信地折叠的蛋白质,而在其他地方可能还可以,但并不那么可靠(浅蓝色)。然后,当涉及到配体时,我们看到它全部是黄色,这意味着这种对接构型的置信度很低。尽管如此,它确实将其放置在了与真实复合物中的血红素基团相匹配的同一口袋中。我的结论是,AlphaFold 3“看到了”一个口袋,并知道它必须将配体放在那里,只是它不确定如何放置。虽然不错,但我原本预期得分会更低,比如配体为红色,蛋白质可能为黄色。
就像 AlphaFold 2 发布时发生的那样,研究人员已经开始进行更多测试,并将它们发布到社交网络上供所有其他科学家跟进和贡献。例如,Sergey Ovchinnikov 向我们展示了如何使用 AlphaFold 3 自动“检测”混合物中可能结合到蛋白质上的分子:
在另一个案例中,Jan Kosinski 对一个结构未知的转录因子(结合 DNA 的蛋白质)进行了折叠,并将其识别序列嵌入到更长的 DNA 中,发现 AlphaFold 3 可以非常精确地将转录因子定位到 DNA 上。然后,他进行了更多有趣的测试,例如测试 DNA 分子中突变对转录因子预测结合的影响。
光明的前景,但只有少数人?
随着这些进步,我们正站在解开生命分子层面奥秘的边缘,这些奥秘是我们十年前甚至无法想象的。然而,不幸的是,这个系统比所有之前的 AlphaFold 版本都要封闭得多:没有代码,没有权重,已提交专利。尽管你可以免费使用 AlphaFold 3,但你只能通过 GUI 获得非常有限的控制,并且每天只能运行大约 10 个预测任务。
科学界已经对此表示了不满,他们确实有理由,因为这些 AI 模型如果没有蛋白质数据银行免费提供的数十万个结构,是无法训练的——实际上,这些结构是由许多国家的公共税收资助的。甚至有 AlphaFold 3 论文的审稿人在 X 上打破沉默,解释说,他向《自然》杂志提出的开源合规要求完全被期刊拒绝了:
然而,某种程度上这是我们(科学家们)自己的错,因为我们倾向于将所有数据都公开得过于广泛,最重要的是,没有明确的条款说明可以或不可以如何使用它……毕竟,涉及其中的是那些进行巨额投资并期待巨额回报的公司。而如果你能使用这样的工具更快、更便宜地设计出新的、更好的药物,这正是你可以得到的。
请在下面留下您的评论,关于这个重要的方面——或者关于您想要讨论的任何其他点!
www.lucianoabriata.com 我会写关于我广泛兴趣范围内的一切:自然、科学、技术、编程等。通过电子邮件订阅我的新故事。要咨询小型工作*,请查看我的**服务页面。您可以在此处联系我。您还可以在此处打赏我**.*
更多推荐



所有评论(0)