原文:https://arxiv.org/abs/2411.04708

摘要

  1. 首次系统性研究了分子图的层级表示(节点、基序、图级)在多模态 LLMs 中的作用。
  2. 提出了 M³LLM 架构,该架构设计了层级图编码器以提取多级分子特征,并通过投射器实现特征与 LLMs 的对齐,同时采用两阶段(对齐预训练、LoRA 微调)训练策略。
  3. 通过不同特征融合策略的实验,揭示了不同下游任务对分子图层级特征的差异化需求,指出当前静态特征融合的局限,并为未来设计动态投影仪提供了关键 insights。

背景

  • 当前与分子相关的多模态大型语言模型缺乏对图特征的全面理解。
  • 静态处理不足以用于分层图特征。

现有方法

SELFLES/SMILES——>文本

微调多模态LLMs

微调多模态LLMs

GIT-MOL

InstructMol

指令微调/LORA微调

Prompt-Tuning——深度解读一种新的微调范式_prompt tuning-CSDN博客

问题:

  • 忽略了分子图的多层级特征
  • InstructMol,仅仅使用节点信息,忽略复杂结构信息和语义信息
  • 仅考虑单一层面(原子层面),无法充分理解整个分子

本文的贡献

思考:

  • 不同层次的特征如何影响各种任务?
  • 哪个级别的层次是最关键的?
  • 结合多个层次的特征是否能提高多模态分子模型的性能?

方案:

  • 设计多层级图编码器,参考MoleculeSTM

  • 产生三个层次的特征——原子级、功能团级和分子级

  • 分别提取3层次特征喂给LLM训练

    最优的特征级别,因任务而异

主要工作:

  • 综合研究了用于训练多模态LLMs的多层级图表达
  • 提出结构,图模态特征提取+投影以对齐LLMs
  • 通过多种特征融合策略,评估了每个特征层级在五个关键下游任务中的影响

方法

stage1:对齐预训练

  • 冻结除了projector以外的参数
  • 让projector学习如何对齐图特征空间和LLM的嵌入空间
  • 构建完成分子描述任务的模型

stage2:LORA微调

  • 冻结图encoder和LLM
  • 激活projector和LoRA权重
  • 微调得到5种(下游)任务的LoRA adapter

stage3:设计分层图编码器

stage按文章顺序列的,我觉得这才应该是第一步QvQ

问题:

  • 现有高维特征提取方法仍然缺乏精细的分子语义和结构信息。
  • 现有数据集缺乏缺乏对分子低维结构及语义信息的精炼总结。

方法:动态分子图精细化分割算法

实现:

  • 自动将分子图分割成不同层次的算法

  • 重新设计训练流程

分级图动态分割

多级自监督学习

目的:使图神经网络能够高效地学习分子图的复杂内部信息(训练Graph Encoder)

1准备数据

  • 1标准化+净化SMILES
  • 2淘汰自由离子
  • 3忽略少于5原子的分子

2使用分级图动态分割算法提取原子,官能团,图级信息

3分配任务:

  • 原子级:引入三种(利用原子和键特性的)生成式预训练任务,每个任务有专用的预测头,分别使用三种不同的交叉熵损失进行优化

    • 目标1:键连接预测
    • 目标2:原子类型预测
    • 目标3:键类型预测

  • 图级:两类预测任务,分段损失函数(结合 MSE 和 L1 损失)

    • 目标1:原子数量预测
    • 目标2:键数量预测

多级对比学习

目的:对齐图特征和文本特征(使Graph Encoder能具备语义信息)

数据集:分子-文本对

方法:沿用MoleculeSTM

LLM与药物发现结合,NVIDIA、Mila、Caltech团队发布多模态分子结构-文本模型 - 知乎

  • 文本—>特征:SciBERT+平均池化
  • 分子图—>特征:使用图节点(Vg)特征表示分子的多级特性
  • 通过 “正样本匹配、负样本区分” 的方式,让 GNN 学到的图形特征与文本特征在同一空间内 “靠近”,同时让无关的图形 - 文本对 “远离”,实现跨模态语义对齐

stage4:探索多级特征

这一块儿和后面的实验部分基本一致

前置

  • 1B LLaMA-3.2

  • 重新评估5任务在InstructMol上的表现,建立基准

    • 实验1:前向预测
    • 实验2:试剂预测
    • 实验3:逆合成预测
    • 实验4:分子描述(molcap)
    • 实验5:属性预测
  • 选择1,2,4作为展开

探索1:Token Reduction

  • n_i:节点级特征(a:节点级特征token数量),m_j:官能团级特征(b:官能团级特征token数量), g:GNN最终产生的特征
  • projector:f_p(*)将特征维度映射到LLM的维度
  • 无压缩(No Reduction):直接拼接所有节点、基序、图特征(如某分子含 10 原子 + 3 基序 + 1 图,共 14 个token)。
  • 分层压缩(Hierarchical Reduction):每级独立池化(节点 / 官能团级平均池化,图级保留),最终拼接 3 个token。
  • 全压缩(All Reduction):全局平均池化所有特征,压缩为 1 个token(忽略粒度差异)。

任务 最优策略 原因分析
正向反应预测 无压缩 需要原子与官能团之间高精度的相互作用
试剂预测 全压缩 试剂依赖分子整体属性,并不需要底层的原子信息
分子描述(Molcap) 无压缩 在分子描述任务中保留所有细节至关重要

Remark:

不同reduction方法的表现差异很小,说明完整的、高精度的图特征并不一定能让大语言模型获得更全面的分子理解。

相反,大型语言模型可能会更依赖SELFIES进行推理,这表明图结构模态的影响可能不如文本模态显著。

探索2:不同层级的影响

对每个层级进行全压缩(探索1的全压缩是指平均池化所有特征,这里应该是指分层压缩),分别作为分子图的表征,在3类任务上测试。

任务类型 最优层级 关键语义匹配
正向反应预测 图级 全局结构变化(环数、原子增减)
试剂预测 图级( Exact Match)
官能团级(RDK 相似性)
全局属性(极性)+ 功能团(亲电基团)
分子描述(Molcap) 官能团级 功能团语义(-OH、苯环)

Exact Match(精确匹配):衡量模型预测的试剂 SMILES 字符串与真实试剂 SMILES 字符串经归一化后是否完全一致(得分 1 表示完全匹配,0 表示不匹配),直接反映试剂预测的 “精确性”。

RDK 相似性(RDK Similarity):基于 RDKit 工具生成的分子指纹,评估预测试剂与真实试剂的结构相似性(得分越高,结构越接近),反映预测试剂的 “合理性”(即使未完全匹配,结构相似的试剂也可能具有相似功能)。

Remark:

通过构建一个专门的虚拟节点,这种多层图神经网络能够更有效地汇总全局信息,甚至在某些任务中,其表现还能超越那些注重细节的方法。

例如,在正向反应预测任务中,图级方法(仅使用图级节点表征分子图)的表现优于采用无约简(no reduction)方法(concat所有特征)。

这表明,全局信息在帮助大模型理解分子结构方面发挥着关键作用,同时也验证了虚拟节点方法的有效性。

实验

分析

1:大型语言模型缺乏对图结构特征的全面理解,且无法充分有效地利用这些特征

  • 节点级特征捕捉原子级信息

  • 官能团级特征代表官能团间相互作用

  • 平均池化成一个token影响不大,实际影响的可能是SELFLES

  • 提出:构建新的对齐训练方法

    • 1使LLM理解分子多层级间的关系
    • 2促进对图特征与SELFIES表示之间联系的理解
    • 现有:图文(LLM生成的分子描述)匹配效果不好
    • 目标:对齐多层级信息、图特征与SELFIES表示方法

2:不同的任务可能需要来自不同层次的特征,这表明亟需一种能够跨多个层次处理信息的动态投射器(projector)

  • 问题:当前使用的线性投射器,只起到对齐GNN embedding和LLM embedding的作用,无法考虑到不同特征层级间的语义区别;缺乏对各层级信息的全面应用
  • 提出:使用动态投射器,根据不同任务选择性融合调整

实施细节

对话模板:

是 M³LLM 实现 “多模态分子任务交互” 的 “语言规范”—— 它一边告诉模型 “该如何行为(系统提示)”,一边告诉用户 “该如何输入(图形 + 指令)”,同时为模型输出划定 “格式边界”

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐