大语言模型(LLM)正以前所未有的速度渗透到化学与材料科学领域。它们能够处理SMILES字符串、回答化学问题,甚至参与到新分子的设计中。然而,一个根本性的问题始终萦绕在研究者心头:这些看似无所不知的AI,是真的“理解”了化学,还是仅仅“记住”了海量训练数据中的模式?

现有的AI化学模型,往往陷入两种困境。一类是基于通用提示的方法,它们试图用精心设计的指令引导强大的通用LLM,但由于缺乏深度的化学语义理解,其表现往往流于表面,甚至会犯下错误的原子计数、生成不合理结构等低级错误。另一类是直接微调的方法,虽然在大量“分子-文本”对上训练,能记住许多特定知识,但由于缺乏对中间推理过程的明确指导,其学习过程更像是“死记硬背”式的监督记忆,而非真正的化学推理。这极大地限制了模型的泛化能力和可解释性,使其在面对未知分子或需要深度逻辑推演的任务时捉襟见肘。

针对这一瓶颈,研究者提出了名为MolReasoner的创新性两阶段训练框架,旨在系统性地引导LLM完成从“被动记忆”到“主动推理”的认知飞跃。

困境与破局:如何教会AI“化学思维”?

一个自然的思路是利用思维链(CoT)数据——为模型提供包含详细解题步骤的“范例”,教它如何思考。然而,手动为复杂化学问题撰写高质量CoT标注成本极高,需大量领域专家投入,难以规模化。另一种路径是强化学习(RL),通过最终结果的好坏奖励模型,引导其探索有效推理策略。但这又面临“冷启动”问题:一个对化学推理一无所知的模型在训练初期几乎无法生成有意义的推理步骤,奖励信号稀疏,学习难以启动。

MolReasoner的提出,正是为了同时解决“CoT数据昂贵”和“RL冷启动困难”两大难题。

两阶段训练:先学“形”,再炼“神”

第一阶段(Mol-SFT):热启动与推理语法学习
研究者采用“知识引导的CoT数据合成”策略,利用GPT-4o生成高质量合成CoT样本。通过向其输入结构化的化学知识(如分子统计特征、官能团信息等),并配合精心设计的提示,最终为ChEBI-20数据集生成了约42,000个合成CoT样本。这些数据虽非完美,但足以作为“教材”,通过监督微调让基础模型初步掌握化学推理的“语法”和“套路”,为后续学习奠定基础。

第二阶段(Mol-RL):强化对齐与灵魂注入
在模型掌握推理形式后,进入强化学习阶段。研究者设计了一套为化学任务量身定制的、多层次可验证的奖励函数,采用组相对策略优化(GRPO)算法,对模型生成的多个候选推理路径和答案进行评估。

对于分子描述任务,奖励综合了六种NLP指标(如BLEU、ROUGE),评估语言相似性。而对于更具挑战的分子生成任务,奖励机制更为全面:

  • 宏观相似性:通过Morgan、MACCS等分子指纹评估整体结构相似度;

  • 序列相似性:比较SELFIES序列的文本层面一致性;

  • 中观相似性(片段):利用EFGs工具比较结构片段,通过Jaccard相似度和召回率抑制“片段幻觉”;

  • 微观相似性(官能团):精确计算官能团数量差异,通过指数衰减函数奖励保真度,抑制“官能团幻觉”。

这套奖励系统从宏观到微观、从结构到语言,精细引导模型生成不仅化学有效、更与文本描述语义高度一致的分子。

实验验证:性能显著领先,推理能力实现跨越

在ChEBI-20测试集上,MolReasoner与多个主流通用LLM(如GPT-4o、DeepSeek-R1)及微调方法(Mol-Instructions)进行比较,结果表现突出:

  • 在分子描述任务中,MolReasoner在全部六项NLP指标上压倒性领先,BLEU-4分数达0.3220,是最佳基线的4.19倍;

  • 在分子生成任务中,其BLEU分数(0.7841)是最佳基线的2.57倍,精确匹配率提升61%;

  • 在片段级指标(Frag-J、Frag-R、FG-Match)上也全面领先,显示出优异的细粒度结构控制能力。

结语:迈向可解释、会推理的化学AI

MolReasoner通过两阶段训练框架,成功将大语言模型从单纯的模式记忆引导至真正的化学推理,显著提升了模型的可解释性、泛化能力和输出可靠性。这不仅为分子LLM的研究开辟了新路径,更在AI用于科学发现的过程中树立了重要的里程碑。未来的化学研究,或可借助此类模型,实现更高效、更可靠的分子设计与知识发现。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐