多尺度多跳图AI模型M3NetFlow用于综合多组学数据分析
多组学数据驱动的研究处于精准医学的前沿,它通过从多个视角和层面来描绘复杂疾病的信号系统。多组学数据的整合与解读对于识别疾病靶点以及破译疾病信号通路至关重要。然而,由于众多蛋白质之间存在复杂的信号相互作用,这仍然是个有待解决的问题。在此,提出了一种多尺度、多跳、多组学的网络流模型,即 M3NetFlow,以推动假设导向型和通用型的多组学数据分析任务。通过2个独立的案例研究对 M3NetFlow 进行
要点
・M3NetFlow 是一种用于综合且可解释的多组学分析的图人工智能模型。
・M3NetFlow 支持基于给定的感兴趣靶点进行靶点和通路推断。
・M3NetFlow 支持从多组学数据中进行通用的靶点和通路推断。
・NetFlowVis 可以将预测的靶点和通路的多组学特征可视化。
摘要
多组学数据驱动的研究处于精准医学的前沿,它通过从多个视角和层面来描绘复杂疾病的信号系统。多组学数据的整合与解读对于识别疾病靶点以及破译疾病信号通路至关重要。然而,由于众多蛋白质之间存在复杂的信号相互作用,这仍然是个有待解决的问题。在此,提出了一种多尺度、多跳、多组学的网络流模型,即 M3NetFlow,以推动假设导向型和通用型的多组学数据分析任务。
通过2个独立的案例研究对 M3NetFlow 进行了评估:(1)揭示药物组合协同作用的机制(假设 / 锚定靶点导向的多组学分析);(2)识别阿尔茨海默病的生物标志物(通用型多组学分析)。评估和比较结果表明,M3NetFlow 达到了最佳的预测准确率,并识别出了一组与药物组合协同作用以及疾病相关的靶点。该模型可以直接应用于其他多组学数据驱动的研究中。
结果
图1 M3NetFlow 的模型架构
(A) 将多组学数据和药物靶点映射到京都基因与基因组百科全书(KEGG)信号通路上。
(B) 在子图上基于多跳注意力机制进行信号传播。
(C) 全局信号传播。
(D) 下游任务:(D.1) 假设 / 锚定靶点导向的解码器 / 预测;(D.2) 基于通用池化 / 排序的解码器 / 预测。
图2 模型性能及输入数据集概述(美国国立癌症研究所(NCI)的 ALMANAC 数据集、奥尼尔(O’Neil)数据集(药物组合多组学数据)和宗教秩序研究与记忆和衰老项目(ROSMAP)数据集(阿尔茨海默病多组学数据))
(A) 针对 NCI ALMANAC、O’Neil 和 ROSMAP 数据集,图卷积网络(GCN)、图注意力网络(GAT)、统一消息传递模型(UniMP)、混合跳图神经网络(MixHop)、图神经网络聚合器(PNA)、图同构网络(GIN)和 M3NetFlow 模型在五折交叉验证比较中的平均皮尔逊相关系数(数据以均值表示)。
(B) 整个 NCI ALMANAC 数据集中,模型的数据点散点图。
(C) 整个 NCI ALMANAC 数据集中所有细胞系的分布情况。
(D) 整个 NCI ALMANAC 数据集中所有细胞系的箱线图。
表1 使用 NCI ALMANAC、O’Neil 和 ROSMAP 数据集,基于五折交叉验证的平均皮尔逊相关系数和预测准确率(均值 ± 标准差)所进行的模型比较
图3 协同和非协同药物组合的靶点重要性评分模式
(A) 对排名前 5 的协同药物组合和排名后 5 的非协同药物组合的重要靶点进行分析的示意图。
(B) 用于展示细胞系 DU-145 核心信号网络相互作用的可视化工具 NetFlowVis。
(C–F) DU-145 和 SK-MEL-28 细胞系中排名前 5 的协同药物组合和排名后 5 的非协同药物组合的靶点重要性评分分布及箱线图,并且使用 t 检验的 p 值对 (C) 和 (E) 中的两种分布进行统计学比较。
图4 细胞系 A498、A549 / 美国典型培养物保藏中心(ATCC)株、ACHN、BT-549、CAKI-1、DU-145、EKVX、HCT-116、HCT-15、HOP-62、HOP-92、HS 578T、IGROV1、K-562、KM12、LOX IMVI、MCF7、MDA-MB-231 / 美国典型培养物保藏中心(ATCC)株、MDA-MB-468、NCI-H23、HCI-H460、NCI-H522、OVCAR-3、OVCAR-4、OVCAR-8、PC-3、RPMI-8226、SF-268、SF-295、SF-539、SK-MEL-28、SK-MEL-5、SK-OV-3、SNB-75、SR、SW-620、T-47D、U251、UACC-257、UACC-62 和 UO-31 的靶点重要性评分箱线图
图5 与阿尔茨海默病相关的排名靠前的蛋白质及相关信号通路
(A) 用于展示阿尔茨海默病(AD)核心信号网络相互作用的可视化工具 NetFlowVis-AD。红色表示节点得分大于 2.0 的节点。紫色圆圈代表在阿尔茨海默病样本与对照样本之间,至少有一个特征的 p 值小于 0.1 的节点。
(B) 节点得分的柱状图,其中红色的柱体和紫色的边框与 (A) 中的含义相同。颜色表示阿尔茨海默病样本与对照样本之间单个组学数据的 p 值。
(C) 所挑选出的排名靠前的蛋白质中,富集程度最高的信号通路的桑基图。
参考
[1] iScience. 2025 Feb 6;28(3):111920. doi: 10.1016/j.isci.2025.111920
注:AI辅助翻译,如有错误欢迎指出。请以复制粘贴,附上本号名片的方式转载此文。
更多推荐
所有评论(0)