知识图谱+大模型协同应用教程:从零基础入门到精通,推荐实战指南,一篇搞定!
本文介绍了一种结合知识图谱与大语言模型的方法,用于自动推荐接力催化反应路径。研究团队构建了包含15881篇文献和27760个催化反应的Cat-KG,通过查询和评分规则筛选路径,再由GPT-4生成可读描述。该方法能在几分钟内推荐目标化合物反应路径,包括已知和新路径,显著提高研究效率,为催化化学领域智能化发展提供技术支撑。最近,厦门大学程俊教授课题组、王野教授课题组与英国爱丁堡大学Jeff Z. Pa
本文介绍了一种结合知识图谱与大语言模型的方法,用于自动推荐接力催化反应路径。研究团队构建了包含15881篇文献和27760个催化反应的Cat-KG,通过查询和评分规则筛选路径,再由GPT-4生成可读描述。该方法能在几分钟内推荐目标化合物反应路径,包括已知和新路径,显著提高研究效率,为催化化学领域智能化发展提供技术支撑。
最近,厦门大学程俊教授课题组、王野教授课题组与英国爱丁堡大学Jeff Z. Pan教授课题组等携手合作,成功开发了一种创新性的研究方法。这种方法巧妙地融合了大语言模型(LLM)的强大处理能力与自主构建的催化知识图谱(Cat-KG)的专业数据,专门用于接力催化路径的智能推荐系统。该研究针对接力催化反应路径推荐这一重要科学问题,提出了全新的解决方案。这一突破性研究成果以"Synergizing Knowledge Graph and Large Language Model for Relay Catalysis Pathway Recommendation"为标题正式刊登在权威学术期刊National Science Review上,为催化化学领域的智能化发展提供了重要的技术支撑。
摘要
接力催化整合了多个催化反应,以高效转化中间体并提高转化率和选择性。然而,设计这些途径和多功能催化剂的过程通常漫长且成本高昂,严重依赖经验丰富的研究人员进行深入文献分析。为解决这一问题,我们开发了一种结合知识图谱(KG)和大型语言模型(LLMs)的方法,用于自动推荐多步催化反应途径。我们的方法涉及使用LLM辅助的工作流程进行数据采集和组织,然后构建详细的催化知识图谱(Cat-KG)。在查询Cat-KG(一个关于催化知识图谱的数据集)后,通过应用基于继电器催化专业知识的评分规则,识别出有前途的继电器催化路径。大型语言模型(LLM)随后将这些结构化的路径和反应条件数据转换成化学方程式和描述,以便化学家阅读。这一步骤整合了来自Cat-KG的催化知识,并通过使用可靠信息帮助避免LLM引起的幻觉。该方法高效地为乙烯、乙醇、2,5-呋喃二甲酸酯以及其他目标推荐了继电器催化路径,在几分钟内识别出与已报告路径一致的新路径,同时使用不同的反应条件,验证了其有效性。因此,这一策略可以外推已知和新颖的继电器催化路径,展示了其在路径选择中的潜在应用。
Synergizing Knowledge Graph and Large Language Model for Relay Catalysis Pathway Recommendation
研究团队构建的Cat-KG已实现催化反应的查询功能,并向公众开放,后续还将陆续开放路径查询等应用。
https://ai4ec.ac.cn/apps/chembrain
参考文献
Large Language Models and Knowledge Graphs: Opportunities and Challenges:https://arxiv.org/abs/2308.06374
关键词:继电器催化、知识图谱、大型语言模型、生成式预训练Transformer
核心速览
研究背景
- 1.研究问题:这篇文章要解决的问题是如何有效地推荐接力催化反应路径。接力催化通过整合多个催化反应来高效地转化中间体,增强转化率和选择性,但设计和优化这些路径和多功能催化剂通常耗时且成本高昂,严重依赖有经验研究人员的深入文献分析。
- 2.研究难点:该问题的研究难点包括:相关知识数据分散在多个来源,收集数据复杂;人工分析匹配催化剂和反应条件效率低,耗时长且主观性强;验证提出的路径需要昂贵且全面的实验工作,增加了研究的资源需求。
- 3.相关工作:该问题的研究相关工作包括利用知识图谱(KG)来整合化学反应和分子结构的网络,识别关键分子和合成路径,以及应用于有机反应的催化剂预测和反应条件优化。
研究方法
这篇论文提出了一种结合知识图谱(KG)和大语言模型(LLM)的方法,用于自动推荐多步催化反应路径。具体来说,
-
数据收集与组织:首先,使用LLM辅助的工作流程进行数据采集和组织。通过Gemini的数据提取能力从文献中收集全面的催化反应数据。
-
构建催化知识图谱(Cat-KG):然后,构建详细的催化知识图谱(Cat-KG)。Cat-KG涵盖了15881篇出版物和27760个热催化反应,其中包括18174个异相催化反应。
-
路径推荐:通过查询Cat-KG,应用基于专家知识的评分规则筛选出有前景的接力催化路径。然后,使用GPT-4将结构化的路径和反应条件数据转换为易于阅读的化学方程式和描述。
实验设计
- 1.数据收集:从15881篇相关出版物中收集数据,使用Gemini 1.5 Flash模型进行全文提取,确保数据的完整性和准确性。
- 2.数据处理:提取的文献信息、反应概览和反应细节首先以JSON格式结构化,然后存储在Chem-Brain平台中。
- 3.知识图谱构建:使用Neo4j构建Cat-KG,涵盖反应、反应物、催化剂、溶剂和产品五个类别,以及四种类型的关系和29个关键催化属性。
- 4.路径推荐系统:开发了一个自动化推荐系统,使用Cypher查询语言搜索Cat-KG中的候选路径,并应用评分规则过滤出高质量的路径。最后,使用GPT-4生成自然语言描述。
基于Cat-KG的中继催化通路查询、筛选与推荐流程。图(a)展示了Cat-KG的示意图,其中候选通路通过特定知识图谱查询生成。图(b)展示了使用评分规则对这些通路进行过滤和优先级排序的过程。图©呈现了由语言模型优化后的推荐中继催化通路,通过格式化处理提升可读性。
结果与分析
-
路径推荐效果:该方法能够在几分钟内推荐乙烯、乙醇和2,5-呋喃二甲酸等目标化合物的反应路径,包括与文献报道一致的路径和使用不同反应条件的路径。
-
路径验证:识别出四个已在文献中报道并验证的接力催化路径,包括乙烯、乙醇和2,5-呋喃二甲酸的合成路径。
-
数据分析:通过计算累积精度(P)、召回率(R)和F1分数,评估数据提取策略的有效性,结果显示平均精度为91.49%,平均召回率为91.18%,平均F1分数为0.9113。
总体结论
这篇论文成功开发了一种结合KG和LLMs的方法,用于有效推荐接力催化反应路径。通过构建详细的Cat-KG并使用GPT-4进行路径描述,该方法显著提高了接力催化研究的效率,并有助于发现新的反应路径。未来,计划扩展Cat-KG以涵盖光催化和电催化应用,并引入强化学习技术进一步优化路径推荐。
论文评价
优点与创新
- 1.结合了知识图谱(KG)和大语言模型(LLMs):该方法利用LLMs的数据采集和组织能力,结合KG的结构化知识,自动推荐多步催化反应路径。
- 2.高效的数据提取和处理:使用Gemini模型进行全文数据提取,结合序列提取和提示工程,显著提高了数据质量和完整性。
- 3.详细的Cat-KG构建:从15881篇相关文献中提取了27760个热催化反应,构建了包含29个关键属性的详细知识图谱。
- 4.自动化路径推荐系统:通过Cypher查询语言和LLM的自然语言生成能力,快速识别并推荐有价值的催化反应路径。
- 5.验证了已有文献中的路径:在推荐的路径中,有四条与文献报道的路径一致,展示了该方法的有效性。
- 6.发现新路径:提出了20条尚未在文献中报道的新路径,为未来的研究提供了新的机会。
- 7.用户友好的查询界面:开发了用户友好的查询界面,允许研究人员指定路径约束,提高了系统的可用性和客观性。
不足与反思
- 1.路径组合的局限性:当前方法主要关注单个反应的最佳催化剂和条件选择,尚未考虑跨步因素如酸-金属活性匹配、副产物管理或水热稳定性。
- 2.复杂化学处理的挑战:尽管LLMs在自然语言处理和化学信息总结方面表现出色,但在处理复杂化学问题时仍存在局限性,可能导致生成的内容不完全可靠。
- 3.未来工作方向:计划开发智能AI驱动的策略,推荐路径内各个反应的最佳条件,并考虑这些条件之间的相互作用。此外,引入强化学习技术,如人类反馈的交互式强化学习,以优化评分权重,使其更好地符合实际研究需求。
关键问题及回答
问题1:在构建催化知识图谱(Cat-KG)的过程中,如何确保数据的完整性和准确性?
- 1.全文提取:使用Gemini 1.5 Flash模型进行全文提取,而不是仅从单一段落中提取数据,以确保获取更全面的信息。
- 2.分步提取:采用顺序提取过程,将任务分为两个步骤以降低复杂性并提高结果质量。第一步提取反应概览和关键信息,第二步提取详细的反应步骤和数据。
- 3.模型优化:使用Gemini 1.5 Flash模型来提高对长文本的理解和提取准确性。
- 4.提示工程:设计可靠的提示语,确保提取的数据具有一致性和完整性。
- 5.数据清洗和实体消歧:实施数据清洗和实体消歧流程,通过基于规则的自动化系统提高效率,解决数据中的错误、遗漏、重复和不一致格式问题。
问题2:在路径推荐系统中,如何利用知识图谱和自然语言模型(LLM)来生成易于理解的化学方程式和描述?
- 1.路径搜索:使用Cypher查询语言从Cat-KG中搜索候选接力催化路径,基于指定的目标产物和路径长度进行查询。
- 2.评分和过滤:应用基于专家知识的评分规则,评估路径的有效性和可行性,过滤出高质量的候选路径。
- 3.自然语言描述生成:使用GPT-4将结构化的路径和反应条件数据转换为自然语言描述。具体步骤包括:
- •从Cat-KG中提取每个反应步骤的详细信息。
- •使用GPT-4的自然语言生成能力,将这些详细信息转换为易于阅读的化学方程式和描述。
- •通过一个专门的工具(如relay catalysis analyzer)自动格式化信息,确保输出的清晰性和可读性。
问题3:该方法在路径推荐方面有哪些实际应用和验证?
- 1.新路径推荐:为10种有价值的目标化合物(如下烯烃、乙烯、乙二醇、草酸、丙二醇、巴豆醛、1,3-丁二烯、1,4-丁二醇、顺-2-丁烯和2,5-呋喃二甲酸)提出了20条新路径,这些路径在文献中尚未报道。
- 2.文献验证路径:识别并验证了四个已在文献中报道并验证的接力催化路径,包括乙烯、乙醇和2,5-呋喃二甲酸的合成路径。这些路径的反应条件从高质量的催化期刊中获得,确保了路径的可靠性。
- 3.路径验证方法:通过与文献报道的路径进行对比,验证了推荐路径的原料、中间体和产物的一致性,并分析了反应条件的优化,确保每个步骤在其最佳反应条件下运行。
研究团队简介
程俊团队隶属于厦门大学化学化工学院,研究平台为嘉庚创新实验室AI4EC Lab。更多信息可访问团队网站:
https://www.cheng-group.net
https://ai4ec.ac.cn
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
更多推荐
所有评论(0)