单纯依靠计算模拟或AI的方法,其核心目标是 “在虚拟环境中进行筛选、设计和预测,以减少对物理实验(尤其是早期湿实验和探索性临床试验)的依赖”

以下将分三部分详细阐述:方法类型、代表性软件/系统、以及推荐的教材与论文


一、主要方法与技术(哪些可以“单纯依靠”计算/AI?)

这些方法通常在进入湿实验验证之前,提供高价值的预测,从而大幅缩小实验范围。

  1. 计算机辅助药物设计

    • 基于结构的药物设计:如果已知靶点蛋白的3D结构(通过X射线、冷冻电镜或AI预测如AlphaFold),可以使用分子对接技术,将小分子化合物虚拟“对接”到靶点的活性口袋,预测其结合模式和结合强度(打分),从而从百万级化合物库中筛选出苗头化合物。

    • 基于配体的药物设计:当没有靶点结构,但已知一些活性化合物时,可以进行定量构效关系分析 和药效团模型 构建,用于虚拟筛选和分子优化。

  2. 人工智能与机器学习驱动的预测

    • ADMET性质预测:这是AI应用最成熟的领域之一。直接输入分子的SMILES字符串或结构图,模型即可预测其吸收、分布、代谢、排泄和毒性。优秀的模型可以在合成前排除具有不良性质的分子。

      • 关键属性:溶解度、透膜性(如Caco-2, P-gp底物)、肝微粒体稳定性、CYP450抑制、hERG毒性(心脏毒性)、基因毒性等。

    • 逆向设计与生成化学

      • 生成式模型:给定期望的属性(如对某靶点高活性、高溶解度、低毒性),模型可以从头生成全新的、在化学空间合理的分子结构。这打破了传统化合物库的限制。

      • 转化模型:将活性高但性质差的分子,通过模型建议的修饰,转化为活性保持但性质更优的分子。

    • 蛋白质结构预测与设计

      • 预测:以AlphaFold2为代表,能高精度预测蛋白质三维结构,为没有实验结构的靶点提供可靠的模拟基础。

      • 设计:设计具有特定功能或结合能力的新蛋白质/酶/抗体(如RFdiffusion模型)。

  3. 系统生物学与计算系统药理学

    • 构建大规模的生物网络模型(如代谢网络、信号通路),模拟药物干预后对整个系统产生的扰动,从而预测药物的多靶点效应潜在副作用以及在老疾病中的新用途


二、代表性软件与系统

这些工具是实践上述方法的载体。

类别 软件/系统名称 简介与特点
商业综合平台 Schrödinger Suite 行业金标准之一。集成了从分子对接(Glide)、动力学模拟(Desmond)、到自由能计算(FEP+)和ADMET预测(QikProp)的全套工具。精度高,学术优惠大。
BIOVIA Discovery Studio 功能全面的可视化建模平台,涵盖经典CADD、药效团、QSAR、序列分析等,用户友好。
OpenEye Scientific 以其快速精确的分子对接(FRED, HYBRID)和分子设计工具(ROCS)著称,云原生架构。
AI/ML主导平台 Atomwise (AtomNet) 基于深度卷积神经网络的分子对接和虚拟筛选平台,提供大规模云筛选服务。
Insilico Medicine (Chemistry42) 集成了生成式AI、ADMET预测和自动逆合成分析的端到端药物发现平台。
Relay Therapeutics (动态结构设计) 虽非纯软件,但其核心技术是通过计算模拟捕捉蛋白质动态构象,并据此设计药物,代表前沿方向。
开源/免费工具 AutoDock Vina/GNINA 最著名、最广泛使用的开源分子对接程序。
RDKit 化学信息学的“瑞士军刀”,Python库,用于分子操作、描述符计算、QSAR建模等,是构建自定义AI管道的基础。
DeepChem 基于TensorFlow/PyTorch的深度学习框架,专门为药物发现、量子化学和生物学设计。
AlphaFold (Colab) 可通过Google Colab使用的开源版本,用于蛋白质结构预测。
ADMET预测服务 SwissADME 免费在线工具,输入SMILES即可获得全面的物理化学和药代动力学性质预测。
pkCSM 免费在线工具,专注于ADMET性质预测,结果直观。
ADMETlab 功能强大的免费在线预测平台,涵盖超过100种ADMET和毒性终点。

三、推荐教材与关键论文

教材(构建知识体系)
  1. 《Computational Chemistry and Molecular Modeling: Principles and Applications》 by K. I. Ramachandran

    • 计算化学基础教材,涵盖量子化学、分子力学、动力学模拟等。

  2. 《Molecular Modeling: Basic Principles and Applications》 by H.-D. Höltje, W. Sippl, D. Rognan, G. Folkers

    • 更侧重于药物设计的分子建模,内容经典实用。

  3. 《Artificial Intelligence in Drug Discovery》 (Edited by Nathan Brown)

    • 聚焦AI在药物发现各环节应用的论文集,是了解该领域的快速通道。

  4. 《Deep Learning for the Life Sciences》 by Bharath Ramsundar, Peter Eastman, Patrick Walters, Vijay Pande

    • 使用DeepChem框架,手把手教如何将深度学习应用于生命科学问题,实践性强。

关键论文(追踪前沿)

AI与生成式模型:

  • 《Generative Models for De Novo Drug Design》 - 各类生成模型(VAE, GAN, RL, 流模型)在药物设计中的综述。

  • 《A Guide to Deep Learning in Healthcare》 - Nature Medicine (2019). 虽然不是纯药物发现,但提供了医疗AI的宏观视角。

  • 《Practical guidelines for the use of gradient boosting for molecular property prediction》 - 如何应用经典的机器学习方法(如XGBoost)解决实际问题。

蛋白质结构预测革命:

  • 《Highly accurate protein structure prediction with AlphaFold》 - Nature (2021). 开创性论文。

  • 《Accurate structure prediction of biomolecular interactions with AlphaFold 3》 - Nature (2024). 预测蛋白质与配体、核酸等的复合物结构。

ADMET预测:

  • 《A comprehensive review of in silico ADMET prediction tools》 - 系统评价各类预测工具和模型。

  • 《MoleculeNet: a benchmark for molecular machine learning》 - 化学信息学与分子机器学习的基准数据集和模型评测。

重要提示与局限

  1. “单纯依靠”的局限性:目前,没有任何一个计算或AI方法能100%准确预测真实的生物系统复杂性。所有的计算结果都必须经过湿实验(生化、细胞、动物实验)的最终验证。 计算的角色是“极大地提高实验的成功率,降低试错成本”,而非完全取代实验。

  2. 数据驱动:AI方法严重依赖高质量的训练数据。数据偏差会导致模型偏差。

  3. 多学科融合:要想有效运用这些工具,需要计算化学、生物信息学、机器学习、药物化学和生物学的交叉知识。工具使用者对领域的理解深度,直接决定了其使用的效果。

建议学习路径

  1. 从基础开始:了解药物发现的基本流程和CADD核心概念(对接、药效团、QSAR)。

  2. 掌握工具:学习使用1-2个核心开源工具(如RDKit + PyTorch/TensorFlow,或AutoDock Vina)。

  3. 跟进前沿:持续关注顶级期刊(Nature BiotechnologyNature Machine IntelligenceJournal of Medicinal ChemistryJCIM)和预印本网站(arXiv的cs.LG, q-bio.QM, q-bio.BM版块)的最新论文。

  4. 动手实践:在Kaggle、TDC等平台上寻找相关的预测挑战赛,是提升实战能力的绝佳方式。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐